,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,/27,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,第,2,章,数据挖掘建模方法,2.1,概述,2.2,业务理解,2.3,数据理解,2.4,数据准备,2.5,建模,2.6,评估,2.7,部署,第2章 数据挖掘建模方法 2.1 概述,2.1 概述,(1),成功的数据挖掘是让数据有商业价值,数据挖掘分析师需要知道什么对商业有价值,并且知道为了获得巨大收益如何整理数据。为了成功运用数据挖掘,对数据挖掘技术层面的理解至关重要,尤其是应该了解如何将数据变成有用信息的过程。,本章主要介绍跨行业标准流程,CRISP-DM,(cross-industry standard process for data mining)。该模型将一个数据挖掘项目的生命周期分为,业务理解、数据理解、数据准备、建模、评估和部署等6个阶段,,这个流程为我们提供了一个数据挖掘所需步骤的完整概括。,2.1 概述(1)成功的数据挖掘是让数据有商业价值,数据挖,2.1 概述,(2),业务理解,(Business Understanding),数据理解,(Data Understanding),数据准备,(Data Preparation),建模,(Modeling),评估,(Evaluation),部署,(Deployment),2.1 概述(2)业务理解(Business Unders,商业数据挖掘案例,某一家银行存在一个业务难题,他们的特别商业产品家庭抵押贷款额度,不能吸引好的客户,家庭抵押贷款业务量低。为此,美国消费者资产协会决定与Hyperparallel 公司合作,采取数据挖掘方法来解决这个问题。,根据CRISP-DM建模体系,第一阶段是业务理解。从这个案例来看,主要的业务问题是解决家庭抵押贷款的业务量。从业务角度上看,是否存在一些客户群体对家庭抵押贷款这项业务感兴趣,而这些客户群体又有什么共同的特征,客户什么时候最可能需要这种贷款等等。根据一般常识和商业顾问、领域专家的意见,他们认为可能使用家庭贷款业务的人群有两种:一种是有孩子上大学的家长,想通过家庭抵押贷款支付学费,另一种是高收入但收入不稳定的人,想通过家庭抵押贷款事、使其收入削峰填谷。,经过上述的业务理解后,需要进行数据理解。首先要收集数据挖掘过程所需要的数据。多年来,美国银行一直将数百万的零售客户数据存储在一个巨大的关系数据库中。关系数据库中的数据共有42个字段,每个记录保存了客户的详细信息。收集到原始数据后,需要根据问题识别数据有用的特征,检验数据的质量,对缺失的字段、数值型变量的取值范围等质量问题进行检验并作处理。,然后,对这些数据进行筛选,转换,调整,规范化后,输入到公司数据仓库中。美国银行利用这个系统,能参透与银行保持联系的客户的所有关系。数据库中数据的属性汇集成客户独一无二的特征,然后采用Hyperparallel 公司的数据挖掘工具进行分析。,经过数据挖掘工具的决策树功能,按照现有银行划分客户的规则,将客户分成两类,即可能或者不可能对提供家庭抵押贷款做出反应。经过了大量的有购买产品和没有购买产品的客户数据,决策树最终获得判定不同类型客户之间差别的规则。一旦发现规则,利用得到的模型可以给每个潜在客户记录增加一个属性,即好的潜在客户标志,就是由数据挖掘模型生成的。接着使用模式的查找工具,确定客户什么时候最有可能需要这种贷款。最后,使用聚类工具将具有相似属性的客户分成不同的组。在某一点上,数据挖掘工具发现了14个客户簇,其中很多簇似乎没有什么特别的发现。但是,有一个簇具有两个令人费解的特点:一是这个簇的39%的人不同时拥有企业和个人账户,二是这个簇中的客户占到家庭抵押贷款可能响应者的四分之一。这些数据提示好奇的数据挖掘者,上述簇中的客户有可能使用家庭抵押贷款来从事商业活动。,利用数据挖掘的结果,美国消费协会资产协会和银行的零售分支机构联合组织市场调查、与客户面谈。市场调查的结果证实了贷款收入将被用于从事商业活动。尽管市场调查存在一些缺点,例如响应者并不能代表全部的人口,有些客户并非诚实对待调查等等,但是与现有客户和以前的客户进行面谈的时候,也可以深入了解其他方式无法得到的情况。,对由数据挖掘产生的结果进行评估之后,美国银行制定部署运用方案,并且按照方案采取了相应的措施,最终,家庭抵押贷款的响应率从0.7%上升到了7%。,资料来源:(美)Michael J.A.Berry (美)Gordon S.Linoff 著.数据挖掘技术:市场营销、销售与客户关系管理领域应用.机械工业出版社.2006.7,商业数据挖掘案例某一家银行存在一个业务难题,他们的特别商业产,2.2 业务理解,业务理解是数据挖掘的第一个阶段,从业务的角度了解项目的要求和最终目的是什么,并将这些目的与数据挖掘的定义以及结果结合起来。具体任务包括:,(1),业务梳理,(2),业务描述,(3),业务特征研究,(4),业务关联分析,2.2 业务理解业务理解是数据挖掘的第一个阶段,从业务的角度,2.3 数据理解(1),数据理解阶段是从收集数据开始,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的自己去形成隐含信息的假设。其任务包括:,(1),数据收集,(2),数据描述,(3),数据探索,(4),数据质量检测,2.3 数据理解(1)数据理解阶段是从收集数据开始,通过一,2.3 数据理解(2),(1),数据收集,在收集数据之前,需要根据业务问题明确数据挖掘过程需要哪些信息,哪些变量是必需的,哪些变量与数据挖掘目标不相关,然后根据选择的标准收集数据,检查是否所有的信息都确实可以利用来实现数据挖掘的目标。,(2),数据描述,描述数据主要是熟悉数据,理解数据的内涵,检验数据的“总的”或者“表面的”特征。例如从商业的角度理解每个变量及其值的含义,变量的含义是否始终一致,变量是否与具体的数据挖掘目标相关联等。,2.3 数据理解(2)(1)数据收集,2.3 数据理解(3),(3),数据探索,探索数据主要是详细分析引人注目的变量特征,识别潜在的特征,思考和评估在描述数据过程中的信息和发现,提出假设并确定方案,阐明数据挖掘的目标。,例如,电信公司想挖掘出移动业务之间的关联规则,那么,在描述数据后,根据数据的特征,选择各种可能相关的业务进行挖掘,对于显而易见的规则,则可以不作考虑。比如说开通上网功能的客户中绝大部分客户也开通了飞信业务,则在探索数据时,不需要考虑这两个业务之间的关联。,(4),数据质量检测,检验数据质量,列举有关问题。例如数据是否完整、正确,是否存在缺失值,数值型变量的范围是否落在允许的范围内,变量的含义与变量值是否一致等质量问题。,2.3 数据理解(3)(3)数据探索,2.4 数据准备,(1),数据准备阶段,的工作是对可用的原始数据进行一系列的组织以及清洗等,预处理,,使之达到建模需求,而这些数据将是模型工具的输入值。,数据准备阶段的任务有可能执行多次,并且没有任何规定的顺序。这个阶段其任务包括:,(1),数据筛选,(2),数据清理,(3),数据构建,(4),数据整理合并,(5),规范化数据,(6),准备建模数据集,(7),选择建模技术和训练模型,2.4 数据准备(1)数据准备阶段的工作是对可用的原始数据,(1),数据筛选,数据筛选的任务是确定数据挖掘分析过程中所必须的数据,即,选择有用的特征和记录,。,在选择数据的时候,首先要考虑的问题是数据要符合解决企业问题的需要。,再者,由于用于建模的数据应尽可能地完整,数据量尽可能多。,当开发预测模型时,资料中也应该包括想要的输出。,2.4 数据准备,(2),(1)数据筛选2.4 数据准备(2),(2),数据清洗,数据挖掘过程是否成功,得出的结果模型是否可靠,取决于数据质量的好坏。清理数据的任务恰恰是清理数据中包含的噪声和与数据挖掘主题明显无关的数据,从而提高数据的质量。清理数据通常包括:,填补空缺的数据值。例如忽略有空缺值的记录;人工填写空缺值;使用一个全局变量填写空缺值;使用属性的均值填写空缺值。,清理噪声数据。对于噪声数据有以下几种处理方法:一是分箱,二是聚类方法,通过聚类发现孤立点。三是计算机与人工相结合的方法,四是回归分析,建立回归方程。,解决不一致问题。数据的不一致主要表现在数据的单位、命名、结构、含义不一致。可以通过对数据的统一调整进行解决。,2.4 数据准备,(3),(2)数据清洗2.4 数据准备(3)