# 数据分析与挖掘
随着技术的进步,公司业务突飞猛进,各种新的业务模式不断的涌现出来,数据量也呈指数级增长。利用数据分析与挖掘技术对海量的数据进行分析,从而降低企业运营决策风险,提高企业运营效率降低企业成本,从行为层面来深入了解用户、为用户画像、实施精准营销,提高营业额。
数据分析是指用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。数据挖掘是从大量的数据中通过算法搜索隐藏于其中信息的过程。数据分析强调结果,数据挖掘强调过程,数据分析的目的明确,根据目标做出假设,得出结论。数据挖掘是为了寻找数据未知的模式与规律。数据分析常用对比分析、回归分析、交叉分析等技术,数据挖掘主要采用决策树、神经网络等机器学习方法来挖掘数据。数据分析是得到已知的指标预测值,根据预测值跟业务结合,发挥数据价值,数据挖掘主要输出模型或规则。
# 数据分析方法
数据分析是基于商业目标,有目的的进行收集、整理、加工和分析数据,提炼有价值信息的过程。大数据分析针对的是海量的多样化数据集,数据分析的过程中,首先要明确分析目标,并对数据进行收集加工处理,然后利用统计学手段对数据进行分析展现,最终提炼价值生成分析报告。
大数据分析通常有如下四类方法:
- 描述性分析:这种方法通过描述某种业务活动,或通过有效的可视化数据,或广泛、精确的实时数据描述发生了什么。
- 诊断型分析:这种方法能够对混乱的信息进行分类,钻取数据的核心,通过数据来探寻为什么会发生某种事情。
- 预测型分析:使用算法确保历史模型能够预测特定的结果,通过自动化的方式预测未来可能会发生什么事情。
- 指令型分析:是依据数据分析的结果来选定最佳的行为和策略,应用先进的分析技术来帮助管理层做出分析决策。
# 数据挖掘算法
# 分类算法
分类就是根据数据集的特点生成一个目标函数,借助该目标函数,将未知的数据集数据样本映射到一个预先定义的类别中,这个类别必须是离散的。
分类算法可以按照原理划分,例如基于统计维度,会有贝叶斯算法,基于神经网络,会有神经网络算法,基于规则,会有决策树相关算法,基于距离,又有KNN算法。如果按模型划分,预测性模型可以直接告诉我们数据应该被分到哪个类,概率性模型不会直接告诉我们结果,但是可以告诉我们每个类的概率。
# 聚类算法
在自然科学和社会科学中,存在着大量的分类问题,这些分类就是指相似元素的集合。聚类分析源于分类学,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定量分类,随着科学技术的发展,人们逐渐把数学工具引用到分类学中,形成了数值分类学,之后又将多元分析的技术引入到数值分类学形成了聚类分析。
聚类是将物理或抽象的对象集合分组为由类似的对象组成的多个类的分析过程。聚类既可以作为单独的过程,用于寻找数据内部的分布结构,也可以作为分类等其他学习任务的前驱过程。它将一组数据根据数据的相似性和差异性分成几个类别,同一类别的数据相似性很大,不同类之间的数据关联性很低。
聚类算法在商业领域中,可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费模式或习惯,为企业的后续应用分析提供基础。
# 回归分析
回归分析指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。在大数据分析中,常用于预测分析,主要研究自变量与因变量的关系。例如,研究商品价格波动于商品销售数量之间的联系。回归分析通常是用来预测一个值,如基于历史数据预测未来的房价,天气情况等等。
回归分析会根据变量的多少分为一元回归分析和多元回归分析。根据因变量的多少分为简单回归分析和多重回归分析。根据自变量和因变量的关系类型分为线性回归分析和非线性回归分析。
# 关联规则
关联规则是发现事物之间关联关系的分析过程,关联分析的目的是找出数据中隐藏的关联网,挖掘发现数据中项集之间的相关联系,常见的管理规则算法有Apriori、FP-树频集算法等。
如下图案例所示,关联规则大体可以分为三个步骤,首先我们扫描数据集,过滤出商品消费频次最高的单种商品,然后将这几种消费频次高的商品进行两两组合,形成组合数据集,再统计新数据集中的次数,最后再次将数据集进行组合,统计数据集次数,并最终得出结论:面包、尿布、啤酒、牛奶这个销售组合存在关联关系。这种关联关系可以帮助零售商更有针对性的制定一些销售运营策略。
关联规则反应了一个对象,与其他对象之间相互依赖的关系,如果多个对象之间存在关联关系,那么通过关联规则算法,通过对一个对象的分析,就可以对其他对象进行预测。
# 协同过滤
协同过滤是利用某兴趣相投、拥有共同经验群体的喜好来推荐用户感兴趣的信息。协同过滤分为基于用户的协同过滤算法(user-cf)、基于物品的协同过滤算法(item-cf)和基于模型的协同过滤算法(mdoel-cf)。