单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,数据挖掘基本概念与算法介绍,目录,数据挖掘的基本概念,数据挖掘与统计分析,数据挖掘的基本算法,数据挖掘实施方法论,数据挖掘的基本概念,什么是数据挖掘?,Data,Information,Knowledge,Wisdom,存在太多数据挖掘的定义,但基本上有这样一种描述结构,To find/discover/extract /dredge/harvest,、,Interesting/novel/useful/implicit/actable/meaningful,、,Information/knowledge/patterns/trends/rules/anomalies,、,In massive data/large data set/large database/data warehouse,、,Data+context,Information+rules,Knowledge+experience,其他数据分析方法:商业智能,的数据分析模型,绝对模型(,Categorical Model,):依据预定义路径寻找原因,如查询,解释模型(,Exegetical Model,):依据多层次路径寻找原因,如多维分析,思考模型(,Contemplative Model,):参数化路径,如场景分析,公式模型(,Formulaic Model,):模型化路径,如数据挖掘,Reporting,Ad Hoc Queries,Predictive Modeling,What happened?,Why did it happen?,What will happen?,ROI,应用复杂性,Stage 3,Stage 2,Stage 1,Human Discovery,Machine-assisted Discovery,现象 模型 误差,数据挖掘寻找的是模型,!,数据挖掘是一个过程,“from data mining to knowledge discovery in database”.U.fayyad,G.P.Shapiro and P.Smyth(1996),数据挖掘过程中的数据预处理,数据清洗,填充缺失值,修均噪声数据,识别或删除孤立点,并解决数据不一致问题,主要分析方法:分箱(,Binning,)、聚类、回归,数据集成,多个数据库、数据方或文件的集成,数据变换,规范化与汇总,数据简化,减少数据量的同时,还可以得到相同或相近的分析结果,主要分析方法:抽样、主成分分析,数据离散化,数据简化的一部分,但非常重要,(,尤其对于数值型数据来说,),数据挖掘过程中的数据探索,探索性数据分析(,Exploratory Data Analysis,EDA,),探索性地查看数据,概括数据集的结构和关系,对数据集没有各种严格假定,“玩”数据,主要任务,数据可视化(,a picture is worth a thousand words,),残差分析(数据拟合,+,残差),数据的重新表达(什么样的尺度对数抑或平方跟会简化分析?),方法的耐抗性(对数据局部不良的不敏感性,如中位数耐抗甚于均值),常见方法,统计量,如均值、方差、根方差、协方差、峰度、偏度、相关系数等,统计图,如饼图、直方图、散点图、箱尾图等,模型,如聚类,什么不是数据挖掘?,定量分析(,Quantitative Analysis,)的需要存在企业管理运行的各个侧面或环节,但并非所有的定量分析问题都可以归结到数据挖掘范畴的问题。,简单的报表、图表及多维分析仍是日常分析工作的主要内容,小样本数据的分析传统统计分析方法更成熟有效,如趋势预测,某些特定业务问题无法用数据挖掘算法加以解决,例如,资源最优配置问题是个运筹学问题,某些物流管理问题或者供应链管理问题是个随机规划问题,营销预演本质是个系统仿真问题,目录,数据挖掘的基本概念,数据挖掘与统计分析,数据挖掘的基本算法,数据挖掘实施方法论,数据挖掘与统计分析,统计学与数据挖掘的联系,从处理数据数据挖掘中采用了大量统计学的思想、方法和工具,聚类分析(无监督学习过程,统计分析中的主要技术),K-Means,Self Organizing Map(SOM),数据分类(有监督学习过程),统计分类技术:距离判别,费雪判别,贝叶斯判别,数据挖掘中的分类技术:决策树,神经网络,其他方法,相关分析,主成分分析,回归分析,序列分析,统计学与数据挖掘的区别,数据,样本数量不同(在统计学中样本数量大于,30,,则成为大样本),数据来源和质量不同,数据挖掘既可以处理结构化数据,也可以处理非结构化和异型数据,方法,数据挖掘的前提是占有大量数据,统计中的实验设计、抽样设计并不适用,有些数据挖掘的分析方法是统计学中没有的,如强调实时分析,统计分析方法在对大规模数据处理时占用系统的资源和时间太多,不适宜采用,因此数据挖掘大量采用神经网络、遗传算法等人工智能方法,模型(模式),模型(统计学),VS,模式(数据挖掘),统计建模强调模型的普适性,数据挖掘强调从数据中发现模式,算法,统计学强调模型,运算量居于次要地位,数据挖掘的精华在于结果的未知性,强调探索性分析,与之对应的是算法而不是模型,方法论,统计学:以数学为基础,每种方法有严格的证明体系,数据挖掘:采用实验方法,不具有很强的严谨性,数据挖掘相对于统计学的特点,使用数据挖掘工具无须具备太专业的统计知识,处理大量的实际数据更有优势,使得数据挖掘人员可以集中精力在业务建模方面,数据挖掘从大型数据库提取所需数据,利用专属计算机软件进行分析,更能满足企业的需求,从理论的角度来看,数据挖掘与统计学不同,其目的在于方便企业的末端使用者应用,而非为统计学家提供检验工具,目录,数据挖掘的基本概念,数据挖掘与统计分析,数据挖掘的基本算法,数据挖掘实施方法论,数据挖掘的基本算法,几个基本概念,模型(,Model,),vs,模式(,Pattern,),数据挖掘的根本目的就是把样本数据中隐含的结构泛化(,Generalize,)到总体(,Population,)上去,模型:对数据集的一种全局性的整体特征的描述或概括,适用于数据空间中的所有点,例如聚类分析,模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间的一个子集,例如关联分析,算法(,Algorithm,):一个定义完备(,well-defined,)的过程,它以数据作为输入并产生模型或模式形式的输出,描述型挖掘(,Descriptive,),vs,预测型挖掘(,Predictive,),描述型挖掘:对数据进行概括,以方便的形式呈现数据的重要特征,预测型挖掘:根据观察到的对象特征值来预测它的其他特征值,描述型挖掘可以是目的,也可以是手段,几类基本的挖掘算法,关联规则(模式、描述型),发现数据集中的频繁模式,例如:,buy(x,”diapers”),buy(x,”beers”)0.5%,60%,分类与预测(模型、预测型),发现能够区分或预测目标变量(唯一的)的规则或者函数,分类的目标变量一般是范畴型的,而预测则是数量型的,并不必然带有任何时间延续型的暗示,例如:股票市值的预测,病人病情的判断,聚类(模型、描述型),对数据分组以形成新类,类标记是未知的,例如:市场细分,孤立点探测(,Outlier Detection,)(模式、预测型),分析异常或噪声数据的行为模式,例如:欺诈检测,广东移动数据挖掘项目中的数据挖掘算法,客户流失,(,分类模型、,Logistic,回归算法,),彩铃,WAP,购买倾向预测,(,分类模型、,Logistic,回归算法,),彩信增量销售预测,(,分类模型、,Logistic,回归算法,),彩铃用户流失预测,(,分类模型、,Logistic,回归算法,),客户价值增长预测,(,分类模型、,Logistic,回归算法,),竞争对手流失预测,(,分类模型、,Logistic,回归算法,),集团客户分群,(,聚类模型、,K-Means,算法,),集团客户级别打分,(,分类模型、,Logistic,回归算法,),产品关联分析,(,关联规则,),个人客户分群分析,(,聚类模型、,K-Means,算法,),集团客户流失预警模型,(AHP,方法,+Logistic,回归算法,),分类问题的基本定义,给定一数据集合(训练集),数据记录由一系列变量组成,其中有一个变量是目标分类标签,寻找一模型,使目标分类变量值是其他变量值的一个函数,利用上述函数,一未知分类变量值的数据记录能够尽可能准确地被判定到某一类别中去,一般会有另一独立地数据集(测试集)用以验证所构建分类函数的准确性,避免过度拟合,分类过程示意,训练集,分类学习,训练集,分类器,IF rank=professor,OR years 6,THEN tenured=yes,Jef is YES!,先回顾简单的二元线性回归问题,y,=,b,0,+,b,1,x,+,u,y,称为被解释变量或者因变量,是一个,连续变量,X,称为解释变量或者自变量,是一个连续变量,b,0,、,b,1,称为回归系数,u,是随机误差,一般假设服从标准正态分布,y,x,y,=,b,0,+,b,1,x,+,u,.,.,.,.,.,.,.,.,Logistic,回归进行分类和预测,LOGISTIC,回归是一种特殊的回归模型,与古典的线性回归模型不同,其响应变量(,Response Variable,)是一分类变量(,Categorical Variable,)而非连续变量(,Continuous Variable,)。响应变量是一个二值化的变量,通常以,10,表示某一事件发生或者不发生。,应用,Logistic,回归得到的概率,p,通常表示在将来某段时间后某一事件发生的概率。,Odds:,目标事件发生的数量,/,非目标事件发生的数量,.,Odds ratio=prob(,目标事件,)/prob(,非目标事件,)=p/(1-p),p=prob(,目标事件,),prob,表示事件发生的概率,Logit:log of odds ratio=log(p/(1-p),Logistic,回归,:,拟合下面的模型,logit=a0+a1*X1+ak*Xk,p=prob(,目标事件,)=exp(logit)/(1+exp(logit),p,的取值范围,:0,1,p,流失类模型案例,建模目的:预测某一段时间之后客户流失的概率。,确定时间窗口:,确定目标变量:定义在,Data Window,中正常而在,Forecast Window,中流失的客户为,0,,而没有流失的客户为,1,。,选择自变量:在电信的客户流失模型中,我们一般使用下面几种类型的变量。,客户流失指标,客户信息数据(人口统计学数据、合同数据),呼叫数据,计费和支持数据,一些转换之后得到的变量,其它数据,Data Window,Forecast Window,Time Lag,M,M-1,M-2,M-3,M,M-5,M+1,M+2,流失类模型案例,模型的评价,Lift,值,R,方,ROC,曲线,K-S,值,模型的应用,P,值大的客户具有更高的流失倾向,模型的评分分布,划定,Cut Off Line,。对,Cut Off Line,的划定可以采用更多的市场数据进行参考,如正确挽留一个客户准备的平均收益和成本,错误挽留一个客户的平均成本,客户流失的平均损失等。有了这些数据可以进一步使用贝叶斯方法建立数量化的分类模型,以确定对,Cut Off Line,的划定。,频数,评分,0,10000,Cut Off Line,非流失,流失,分类中的决策树(,Decision Tree,)归纳,决策树,类似于流程图的树型结构,内部节点代表对某个属性的一次测试,分支代表测试的输出结果,叶节点代表分类标签或分布,决策树的生成包括两个阶段,树的创建,首先,所有训练样本都位于