当前位置: 首页 » 电商资讯 » 电商动态 » 正文

干货:轻松看懂数据挖掘中的十大经典算法

来源:长风大数据    发布日期:2018-05-06    浏览次数:159
 (电子商务研究中心讯)随着移动互联网物联网的发展,所有的连接都在产生数据,从数据中挖掘到的信息价值早已超乎人们的想象。在市场导向与国家大数据战略的推动下,大数据已成为企业发展必不可少的新动能。调查显示,在2016年,几乎40%的公司在使用大数据技术,30%的公司表示在未来一年内采用大数据技术。

大数据技术的发展又离不开数据挖掘,那。。。

什么是数据挖掘?

数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

数据挖掘如此重要,如何进行数据挖掘呢?当然是知识!

知识将成为比数据更重要的资产

复旦大学计算机科学与技术学院教授肖仰华博士在他近期所作的《知识图谱与认知智能》报告中指出:前几年大数据时代到来的时候,大家都说“得数据者得天下”。去年,微软研究院的沈向阳博士曾经说过“懂语言者得天下”。而我曾经论述过,机器要懂语言,背景知识不可或缺。因此,在这个意义下,将是“得知识者得天下”。如果说数据是石油,那么知识就好比是石油的萃取物。

那么问题来了?你需要哪些知识?

数据挖掘是个复杂的过程,它需要统计学、数据库、机器学习、模式识别等多学科的交叉融合来实现。

数据挖掘过程中用到的算法也很多,下图是对这些算法的一个总体梳理:

接下来我们就来说说这传说中的十大经典算法:

  1. 决策树(C4.5算法)

  2. 聚类(K-means算法)

  3. 关联规则(Apriori算法)

  4. 随机森林算法

  5. 逻辑回归

  6. SVM

  7. 朴素贝叶斯

  8. K最近邻算法

  9. Adaboost 算法

  10. 神经网络

篇幅有限,为了保证阅读质量,本文只讲解前三个。其余的算法讲解会不定期更新的呦,想学习的小伙伴看过来☟☟☟

十大经典算法图解(一)

01

决策树(C4.5算法)

决策树(Decision Tree),又称为判定树,是数据挖掘技术中的一种重要的分类方法,它是一种以树结构(包括二叉树和多叉树)形式来表达的预测分析模型。

根据一些特征( feature )进行分类,每个节点提一个问题,通过判断,将数据分为若干类,再继续提问。这些问题是根据已有数据学习出来的,再投入新数据的时候,就可以根据这棵树上的问题,将数据划分到合适的叶子上。

决策树生长算法流程(以C4.5算法为例):

C4.5算法实例图解:

 

两周内的天气及网球俱乐部顾客光顾情况

02

聚类(K-means算法)

什么是聚类?

什么是K-means?

K-means算法流程图解:

Setp1:确定初始质心

Setp2:计算距离&划分簇

Setp3:迭代计算中心点

Setp4:收敛

03

关联规则(Apriori算法)

关联规则是形如X→Y的蕴涵式,其中, X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。其中,关联规则XY,存在支持度和信任度。

关联规则经典算法及优缺点比较:

Apriori算法是种最有影响的挖掘布尔关联规则频繁项集的算法。它的核心是基于两阶段频集思想的递推算法,该关联规则在分类上属于单维、单层、布尔关联规则。

在Apriori算法中,寻找最大项目集(频繁项集)的基本思想是:算法须要对数据集进行多步处理。

Apriori算法图解:

1.产生频繁项集

2.生成关联规则

(来源:长风大数据 编选:电子商务研究中心)

 
相关阅读

联系方式

  • 电话:400-0471-655
  • 网址:http://www.nmggfw.cn
  • 地址:内蒙古呼和浩特市金川开发区金海路1号内蒙古电商大厦9层
  • 邮箱:service@nmggfw.cn
Copyright © 2016 内蒙古电子商务产业园 版权所有 蒙ICP备16003829号-1 技术支持:及至电商