资源预览内容
第1页 / 共37页
第2页 / 共37页
第3页 / 共37页
第4页 / 共37页
第5页 / 共37页
第6页 / 共37页
第7页 / 共37页
第8页 / 共37页
第9页 / 共37页
第10页 / 共37页
第11页 / 共37页
第12页 / 共37页
第13页 / 共37页
第14页 / 共37页
第15页 / 共37页
第16页 / 共37页
第17页 / 共37页
第18页 / 共37页
第19页 / 共37页
第20页 / 共37页
亲,该文档总共37页,到这儿已超出免费预览范围,如果喜欢就下载吧!
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,数据挖掘之基本流程,数据挖掘之基本流程,1.,什么是数据挖掘?,2.,数据挖掘的基本方法?,1,内容回顾,数据挖掘(英语:,Data mining,),又译为资料探勘、数据采矿。它是数据库知识发现(英语:,Knowledge-Discovery in Databases,,简称:,KDD),中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程,。,1.什么是数据挖掘?1内容回顾数据挖掘(英语:Data mi,(,a,)根据性别划分公司的顾客。,(,b,)根据可赢利性划分公司的顾客。,(,c,)预测投一对骰子的结果。,(,d,)使用历史记录预测某公司未来的股票价格。,2,下列每项活动是否是数据挖掘任务,?,简单陈述你的理由?,(a)根据性别划分公司的顾客。(b)根据可赢利性划分公司的顾,理解什么是,KDD(,知识发现,),与,KDD,的基本流程;,了解,CRISP DM,的含义与基本流程;,了解数据,挖掘的基本,流程;,理解并掌握使用,SPSS Modeler,进行数据挖掘的基本方法;,3,内容要点,理解什么是KDD(知识发现)与KDD的基本流程;3内容要点,4,KDD(,Knowledge Discovery in Database,)-,知识发现,知识发现,知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程,。,1.,什么是知识?,2.,知识发现的概念描述!,概念,规律,模式,规则,约束,4KDD(Knowledge Discovery in Da,5,知识发现过程,数据集,变换后数据,预处理数据,目标数据,选取抽样,变换,预处理,知识,数据挖掘,解释评价,抽取的信息,可视化,知识发现过程示意图,数据准备,数据挖掘,结果表达与解释,选择算法主要考虑两个因素:,一是尽量选取与数据特征相关的算法,二是用户或实际运行系统的要求。,数据挖掘质量的好坏有两个,影响要素,:,一是所采用的数据挖掘技术的有效性;,二是用于采掘的数据的质量和数量,5 知识发现过程数据集变换后数据预处理数据,6,知识发现的任务,知识发现的任务,数据总结,概念描述,分类与预测,聚类分析,关联分析,异常分析,建模,6知识发现的任务知识发现的任务数据总结概念描述分类与预测聚,7,一、数据总结,数据总结的目的:对数据进行浓缩,给出它的紧凑描述,数据总结的方法:传统的也是最简单的方法是对数据库的各个字段求和值、平均值、方差值等统计值,或者用直方图、饼状图等图形方式表示,7一、数据总结数据总结的目的:对数据进行浓缩,给出它的紧凑描,8,二,、概念描述,一个对含有大量数据的数据集合进行,概述性,的总结并获得,简明,、,准确,的描述,这种描述就称为概念描述(,concept description,)。,例子,:一个数据挖掘系统需要从我校职工数据库中,挖掘出我校讲师情况的概要总结,并给出(我校)讲师概念描述。,提取信息,总结算法,概要总结,概念描述,62%,(,age24,),8二、概念描述一个对含有大量数据的数据集合进行概述性的总结并,9,三、分类与预测,分类,:就是找出一组能够描述数据集合典型特征的模型(或函数),以便能够分类识别未知数据的归属或类别(,class,),即将未知事例映射到某种离散类别之一。,分类通常用于预测未知数据实例的归属类别(有限离散值),如一个银行客户的信用等级是属于,A,级、,B,级还是,C,级。,9三、分类与预测分类:就是找出一组能够描述数据集合典型特征的,10,四,、聚类分析,聚类分析(,clustering analysis,)中,首先需要根据,“,各,聚集(,c,lusters,),内部数据对象间的相似度最大化;而各聚集(,clusters,)对象间相似度最小化,”,的基本聚类分析原则,以及度量数据对象之间相似度的计算公式,将聚类分析的数据对象划分为若干组(,groups,)。,因此一个组中数据对象间的相似度要比不同组数据对象间的相似度要大。每一个聚类分析所获得的组就可以视为是一个同类别归属的数据对象集合,更进一步从这些同类别数据集,又可以通过分类学习,10四、聚类分析聚类分析(clustering analys,11,五,、关联分析,关联分析,(,association analysis,),:,从给定的数据集发现频繁出现的项集模式知识,(,又称为关联规则,association rules,),。关联分析广泛应用于市场营销,事务分析等应用领域。,对于一个商场经理,或许更想知道哪些商品是常在一起购买,描述这样的情况的一条关联规则说明如下:,11五、关联分析关联分析(association analy,12,六、异类分析,异类(,outlier,):,那些不符合大多数数据对象所构成的规律(模型)的数据对象就被称为,异类,。,示例:,异类分析可以用于从大量商品购买记录中,依据各帐户平常所发生的购买行为,发现正在进行信用卡诈骗的购买行为(异类行为)。,12六、异类分析异类(outlier):那些不符合大多数数据,13,七,、演化分析,数据演化分析(,evolution analysis,):,对随时间变化的数据对象的变化规律和趋势进行建模描述。,示例,:利用演化分析方法可对股市主要股票交易数据(时序数据,,time-series data,)进行分析,以便获得整个股票市场的股票演化,规律,以及一个特定股票的变化规律,13七、演化分析数据演化分析(evolution anal,请回忆知识发现的过程包括哪些?,14,实践一,请回忆知识发现的过程包括哪些?14实践一,15,KDD,过程可以概括为三部分,:,数据准备,(Data Preparation),数据挖掘,(Data Mining),结果的解释和评估,(Interpretation&Evaluation),。,数据,目标数据,预处理,数据,转换数据,模式,知识,选择,预处理,转换,数据挖掘,模式评价,模式评价,数据挖掘,数据准备,KDD,过程图,15 KDD过程可以概括为三部分:数据准备(Data Pr,数据选取,(Data Selection,),:,数据选取的目的是:确定发现任务的操作对象,即目标数据,(Target Data),是根据用户的需要从原始数据库中抽取的一组数据,数据预处理,(Data Preprocessing,),:,一般包括:消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等,。如把连续值型数据转换为离散型数据,以便于符号归纳;或是把离散型数据转换为连续值型数据,以便于神经网络计算。,16,1.,第一阶段 数据准备(又可分为,3,个子步骤),数据选取(Data Selection):数据选取的目的是,数据变换,(Data Transformation,),:,主要目的是:削减数据维数或降维即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数。,17,1.,第一阶段 数据准备(又可分为,3,个子步骤),数据变换(Data Transformation):主要目,首先,要确定挖掘的任务或目的,如分类、聚类或关联规则等。,确定任务后,就要决定使用的挖掘算法,;,选择实现算法有两个考虑因素,:,一是不同的数据有不同的特点,;,二是用户或实际运行系统的要求,。,有的用户可能希望获取描述型的,、容易理解的知识;而有的只是希望获取预测准确度尽可能高的预测型知识。,选择了挖掘算法后,,就可以实施数据挖掘操作,获取有用的模式。,18,2.,第二阶段 数据挖掘,首先要确定挖掘的任务或目的,如分类、聚类或关联规则等。1,数据挖掘阶段发现出来的模式,经评估:,可能存在冗余或无关的模式,需将其剔除,;,也可能有不满足用户要求模式,,则需要退回到发现过程前面的阶段,如重新选取数据、采用新的数据变换方法、设定新的参数值,甚至换一种挖掘算法等等。,另外,KDD,由于最终是面向人类用户的,因此可能要对发现的模式进行可视化,或者把结果转换为用户易懂方式,,如把分类决策树转换为 “,if then”,规则,。,19,3.,第三阶段 结果的解释和评估,数据挖掘阶段发现出来的模式,经评估:19 3.第三阶段,数据挖掘仅仅是整个过程中的一个步骤。,数据挖掘质量的好坏有两个影响要素:,一是所采用的数据挖掘技术的有效性,;,二是用于挖掘的数据的质量和数量,(,数据量的大小,),。如果选择了错误的数据或不适当的属性,或对数据进行了不适当的转换则挖掘的结果不会成功。,整个挖掘过程是一个不断反馈的过程。,比如,用户在挖掘途中发现选择的数据不太满意,或使用的技术产生不了期望的结果。这时,用户需要重复先前的过程,甚至从头重新开始,。,20,数据挖掘仅仅是整个过程中的一个步骤。,数据挖掘仅仅是整个过程中的一个步骤。20数据挖掘仅仅是整个过,21,数据挖掘的常见过程模型,CRISP-DM,SEMMA,5A,21数据挖掘的常见过程模型CRISP-DMSEMMA5A,22,SEMMA,1 Sample,数据取样,2 Explore,数据特征探索、分析和予处理,3 Modify,问题明确化、数据调整和技术选择,4Model,模型的研发、知识的发现,5Assess,模型和知识的综合解释和评价,22SEMMA1 Sample数据取样2 Explore,23,5A,评价需求,Assess,存取数据,Access,完备分析,Analyze,模型演示,Act,结果展现,Automate,235A评价需求Assess存取数据Access 完备分析,跨行业数据挖掘标准过程(,CRISP,DM,),定位是面向行业、工具导向、面向应用,适用于大型工业和商业实践的一般标准,24,CRISP DM,跨行业数据挖掘标准过程(CRISPDM)24CRISP D,25,CRISP-DM,1:business understanding:,即商业理解,.,在第一个阶段我们必须从商业的角度上面了解项目的要求和最终目的是什么,.,并将这些目的与数据挖掘的定义以及结果结合起来,.,2.data understanding:,数据的理解以及收集,对可用的数据进行评估,.,3:data preparation:,数据的准备,对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求,.,4:modeling:,即应用数据挖掘工具建立模型,.,5:evaluation:,对建立的模型进行评估,重点具体考虑得出的结果是否符合第一步的商业目的,.,6:deployment:,部署,即将其发现的结果以及过程组织成为可读文本形式,25CRISP-DM1:business underst,26,CRISP-DM,商业理解,商业,理解,数据,理解,数据,准备,建立,模型,模型,评估,结果,发布,确定商业,目标,形势评估,确定数据,挖掘目标,制定项目,计划,背景,商业目标,成功标准,拥有资源,需求、假定,和限制,风险和,偶然性,专业,术语,成本和,收益,数据挖掘,目标,数据挖掘,成功标准,项目计划,工具和方法,评估,26CRISP-DM商业理解商业 数据数据建立模型,27,CRISP-DM,数据理解,商业,理解,数据,理解,数据,准备,建立,模型,模型,评估,结果,发布,收集原始,数据,数据描述,数据探索,性分析,数据质量,描述,数据收集,报告,数据描述,报告,探索性数据,分析报告,数据质量,报告,27CRISP-DM数据理解商业 数据数据建立模型,28,CRISP-DM,数据准备,商业,理解,数据,理解,数据,准备,建立,模型,模型,评估,结果,发布,选择数据,确定分析包含,/,剔除数据,数据集,数据集,描述,数据清理,数据清理报告,数据重构,生成新的变量(字段),生成新的记录,整合数据,合并相关数据,格式化数据,改变数据格式,适应分析,28CRISP-DM数据准备商业 数据数据建立模型,29,CRIS
点击显示更多内容>>

最新DOC

最新PPT

最新RAR

收藏 下载该资源
网站客服QQ:3392350380
装配图网版权所有
苏ICP备12009002号-6