Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,6/19/2012,#,数据分析方法培训,目录,数据分析前的思考,案例分享,深层次数据分析,数据分析前,我们需要思考,3,孙子兵法谋攻篇:故,上兵伐谋,,其次伐交,其次伐兵,,其下攻城;攻城之法为不得已。,像一场战役的总指挥影响着整个战役的胜败一样,,数据分析,师的思想,对于整体分析思路,甚至分析结果都有着关键性的,作用。,问题,分析结,果呈现,分析思,路与方,法,数据选取,数据分析前,我们怎么去思考?,每一个步骤可能面临的问题以及需要准备的东西?,4,选取的分析,软件以及分,析方法(统,计学相关方,法)。,分析问题和解决问题的思路,5,定义问题,第一步,首先,要搞清,问题的实质,,准确、完整、,真实地表达问,题。,其次,弄清楚,为什么要解决,这个问题?,最后,解决这,个问题的意义,何在?是必须,解决还是无关,紧要,或是需,要马上解决还,是不太着急。,第二步,收集整理,信息,搜集、整理,关于要解决,问题的历史,资料、类似,情况和现状。,第三步,选取分析,方法,分析涉及到,的主要维度,,为后面提取,数据需求作,准备;,第四步,数据提取,整理,根据分析内,容以及分析,方法,提出,分析所需的,数据需求;,对于反馈回,来的数据,,需要进行部,分加工,以,便更能反应,所要分析的,问题。,第五步,分析结果,及结论,根据分析的,结果,得出,一些当前问,题产生的一,些结论。这,里注意分析,的方法以及,维度,结果,的展示方式,等。,结论需要求,足够的数据,做支撑。,第六步,实施及建,议措施,针对数据分,析结论,给,出当前问题,的解决建议,措施。,一方面从业,务层面进行,建议措施,,另一方面,,可以就问题,点进行更深,层次分析,,给出数据挖,掘层面的解,决措施。,第七步,实施效果评,估及报告整理,根据措施实,施效果进行,实际评估,,将完成的分,析过程,结,果以及评估,整理报告,,为以后出现,问题提供经,验教训。,对于本次没,有完全解决,的问题,进,行说明。,例如,从现,有的报表数,据中就能够,看到当前问,题点的数据,情况或者一,段时间的趋,势;,两个重点步骤,精确的陈述问题,W,here-哪里存在问题?,W,hat-存在的问题是什么?,W,hy-原因在哪里?,W,hen-什么时候开始出现这样的问题?,W,ho-与什么对象有关?,H,ow,many-发生的次数和数量?,H,ow,much-损失有多大?,爱因斯坦说:“精确的陈述问题比解決问题还来得重要”,5W2H法:,5W:What,When,Where,Who,Why;,2H:How及How,many;,使用这,个方法,阿根廷队世界杯,输球了,如果你,是马拉多纳,你,怎么去思考?,定义问题,收集整理,信息,选取分析,方法,数据提取,整理,分析结果,及结论,实施及建,议措施,实施效果评,估及报告整理,问题展现方式,问题现状,直接原因,最终原因,问题的结构如同这座冰山,初步的问题分析,深层次的问题分析,问题结构是由现状、直接原因以及最终原因构成的。针对直接原因进行的叫初步,问题分析,针对最终原因进行分析的叫深层次问题分析。,7,治标,治本,定义问题,收集整理,信息,选取分析,方法,数据提取,整理,分析结果,及结论,实施及建,议措施,实施效果评,估及报告整理,问题分解,8,问题陈述,问题/假设1,问题/假设2,问题/假设3,分支问题,分支问题,分支问题,分支问题,分支问题,分支问题,为什么使用逻辑树?,1.将问题分成几个部分使,解决问题的工作可以分成智力上能够解,决的几个部分,不同部分可按轻重缓急区分,工作责任能分派到各人,2.保证问题获得完整地解决,将问题的各个部分解决好,即可解决整,个问题,所分问题的各个部分各不相同,而且包,括了各个方面(即没有重叠没有遗漏),3.使项目小组共同了解解决问题的框架,4.协助重点使用组织框架及理论,定义问题,收集整理,信息,选取分析,方法,数据提取,整理,分析结果,及结论,实施及建,议措施,实施效果评,估及报告整理,分析方法,统计方法的三大特性,用三句话来简单概括一下:,反应客观现象,的数据,描述性统计,(包括统计数据的收,集、整理、显示和分,析),实用性:除了实情,数据能证明一切;,丰富性:统计就像比基尼,露出来的部分固然诱人,没露出来的部分才是最要命,的;,公平性:我们相信上帝,其它人请用数据说话。,概率论,(包括分布理论、,大数定律和中心极,限定理),推断统计,(利用样本信息和概率论对总体,的数量特征进行估计和检验等),总体内在的数量,规律性,9,样本数据,总体数据,定义问题,收集整理,信息,选取分析,方法,数据提取,整理,分析结果,及结论,实施及建,议措施,实施效果评,估及报告整理,描述性统计分析,“五点法”:最小值,1/4分位数,均值,3/4分位数,最大值,“两度”:峰度,偏度,六西格玛:,检验统计量的取值空间,6,10,定义问题,收集整理,信息,选取分析,方法,数据提取,整理,分析结果,及结论,实施及建,议措施,实施效果评,估及报告整理,2,1,2,0,y,-1,y,-2,-2,-1,0,1,-1,-2,0,2,2,1,y,0,y,4,6,8,负相关,相关但非线性相关,推断统计分析,11,回归分析是统计分析思想中最基础、最集中的一个领域。,高斯、高尔顿,相关分析&回归分析,-3,-2,1,2,(a),-2,1,2,(b),x,-2,-1,0,1,2,x,-3,-2,-1,0,1,2,3,x,-1,0,不相,x,关,(c),-1,0,正相关,(d),变量的选取;,预测推断;,P值:回归分析就是放“P”,放,得好,就合格。,定义问题,收集整理,信息,选取分析,方法,数据提取,整理,分析结果,及结论,实施及建,议措施,实施效果评,估及报告整理,变量分析方法选取,对,象,变,量,的,关,系,类,型,因,变,量,自,变,量,预,测,和,解,释,变,量,的,个,数,变,量,的,相,互,关,系,变,量,的,结,构,关,系,多,因,变,量,与,自,变,量,多,因,变,量,与,自,变,量,单,一,变,量,存,在,多,存,在,多,重,关,系,存,在,单,一,关,系,重,关,系,变,量,样,本,因,变,量,测,量,尺,度,结构方程式模式,数,量,型,非,数,量,型,数,量,型,非,数,量,型,自,变,量,尺,度,测,量,典型相关分析,多元方差分析,因,变,量,尺,度,测,量,多元回归,分析,结合分析,数,量,型,非,数,量,型,多元判别分析,Logistic回归,离散选择模型,CHAID,因子分析/主成分析,聚类分析,变,量,测,量,尺,度,数,量,型,非,数,量,型,多维尺度分析,对应分析,一张简单的图胜过千言万语!,12,定义问题,收集整理,信息,选取分析,方法,数据提取,整理,分析结果,及结论,实施及建,议措施,实施效果评,估及报告整理,数据挖掘分析,13,按挖掘方法分类:包括统计方法,机器学习方法,神经网络方法和数据库方法,,其中:,统计方法可分为:判别分析(贝叶斯判别、费歇尔判别、非参数判别等),聚类分,析(系统聚类、动态聚类等),探索性分析(主成分分析等)等。,机器学习方法可分为:归纳学习方法(决策树、规则归纳等),基于范例学习,遗,传算法等。,神经网络方法可以分为:前向神经网络(BP算法等),自组织神经网络(自组织特,征映射、竞争学习等)。,数据库方法分为:多为数据分析和OLAP技术,此外还有面向属性的归纳方法。,关联规则,关联规则反映一个事物与其它事物之间的相互依存性和关联性,如果两个事,物或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其,他事物预测到。,Ps:,多元统计分析中的聚类分析有个,阈,值,用于确定分类的一个临界值,平时会遇到把,它读成f,误以为它是“,阀,”字。正确的应该是阈(念y)值,而不是阀值.,定义问题,收集整理,信息,选取分析,方法,数据提取,整理,分析结果,及结论,实施及建,议措施,实施效果评,估及报告整理,网管中心数据,CRM数据,一经数据,第三方调查数据,14,海量的数据,eg,数据提取时注意的几点问题。,经分数据,BOSS数据,定义问题,收集整理,信息,选取分析,方法,数据提取,整理,分析结果,及结论,实施及建,议措施,实施效果评,估及报告整理,选取分析所需的相关数据,制定数据提取需求,15,人口统计,性别,年龄,户藉,职业,婚姻状况,教育程度,收入,客户,办理时间地点,办理的渠道,办理的业务种类,生效和失效时间,购买行为,消费行为,沟通记录,销售概率,帐单信息,分群特征,离网概率,离网原因,客户价值,高利润率,中等利润率,低利润率,负利润率,服务与产品,使用的产品,使用的服务功能,接受的营销offer,享受的客户服务,态度,形象,价值观,生活方式,心理因素,客户偏好,渠道偏好,联络时间偏好,服务内容偏好,帐户信息,高级资料,性格和爱好,反感的业务,家庭情况,缴费方式,使用清单,缴费记录,行为信息,基本资料,地址、电话、,email、籍贯等,语言、行业,手机相关信息,网络状况,业务办理信息,行为方式,通话时段,繁忙和非繁忙通话,量,漫游服务,方便程度,行为方式的变化,客户交互信息,客户交互概况,整合的投诉历史,整合的咨询历史,主动联络客户历史,客户分析信息,注意数据提取粒度,定义问题,收集整理,信息,选取分析,方法,数据提取,整理,分析结果,及结论,实施及建,议措施,实施效果评,估及报告整理,数据质量的评估,在现实社会中,存在着大量的“脏”数,据,不完整性,(数据结构的设计人员、数据采集,设备和数据录入人员),缺少感兴趣的属性,感兴趣的属性缺少部分属性值,仅仅包含聚合数据,没有详细数据,噪音数据(采集数据的设备、数据录入人员、,数据传输),数据中包含错误的信息,存在着部分偏离期望值的孤立点,不一致性(数据结构的设计人员、数据录入人,员),数据结构的不一致性,Label的不一致性,数据值的不一致性,业务角度对于数据质量进行,初步评估!,16,数据类型冲突,性别:,string(Male,、,Female),、,Char,(,M,、,F,)、,Interger,(,0,、,1,),日期:,Date,、,DateTime,、,String,数据标签冲突:解决同名异义、异名同,义,学生成绩、分数,度量单位冲突,学生成绩,百分制:,100,0,五分制:,A,、,B,、,C,、,D,、,E,字符表示:优、良、及格、不及格,概念不清,最近交易额:前一个小时、昨天、本周、本,月?,聚集冲突:根源在于表结构的设计,定义问题,收集整理,信息,选取分析,方法,数据提取,整理,分析结果,及结论,实施及建,议措施,实施效果评,估及报告整理,数据质量的评估,技术角度进行数据质量评估,17,定义问题,收集整理,信息,选取分析,方法,数据提取,整理,分析结果,及结论,实施及建,议措施,实施效果评,估及报告整理,数据的清洗处理,主要任务:,补充缺失数据,识别孤立点,平滑噪音数据,处理不一致的数据,处理方法:,分箱(Binning)的方法:,聚类方法:,检测并消除异常点,线性回归:,对不符合回归的数据进行平滑处理,人机结合共同检测:,由计算机检测可疑的点,然后由用户确认,18,定义问题,收集整理,信息,选取分析,方法,数据提取,整理,分析结果,及结论,实施及建,议措施,实施效果评,估及报告整理,指标分析与政策分析并重;,反应重点问题、实事求是;,材料、数据要真实,论据要有说服力。,切记,分析角度:缺乏分析中心思想或主干线,文字表达:“一图二表三文字”,逻辑结构:论点、论据、论证,19,收集整理,定义问题,信息,选取分析,方法,数据提取,整理,分析结果,及结论,实施及建,议措施,实施效果评,估及报告整理,怎样将