资源预览内容
第1页 / 共41页
第2页 / 共41页
第3页 / 共41页
第4页 / 共41页
第5页 / 共41页
第6页 / 共41页
第7页 / 共41页
第8页 / 共41页
第9页 / 共41页
第10页 / 共41页
亲,该文档总共41页,到这儿已超出免费预览范围,如果喜欢就下载吧!
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二层,第三层,第四层,第五层,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,数据仓库和数据挖掘,数据仓库和数据挖掘数据仓库和数据挖掘 数据仓库和数据挖掘2第六章 数据仓库和数据挖掘第一节 数据仓库的原理,第二节 数据仓库体系结构,第三节 数据仓库的开发,第四节 联机分析处理OLAP,第五节 数据挖掘技术,第六节 数据挖掘的方法和工具 3,第一节数据仓库的原理,2.数据仓库中的一些基本概念,粒度,粒度是数据仓库的数据单位中保存数据的细化或综合程度的级别;,分割,就是将数据分散到各自的物理单元中去,使它们能被独立地处理;,维,是人们观察数据的特定角度,是数据的视图,。,6,第一节数据仓库的原理,二、数据仓库的特点,面向主题的,集成的,相对稳定的,随时间变化的,7,第一节数据仓库的原理,面向主题的,数据仓库中的数据是按一定的主题进行组织的,为按主题进行决策的过程提供信息。,集成的,数据仓库中数据是来源于分散的数据库数据,它们进入数据仓库中时必须通过一定的方法来使之在数据仓库中有统一的形式和含义。,T,或,F,转 换,T、F,是、否,0、1,(,a),集成,8,第一节数据仓库的原理,相对稳定的,也称为非易失性。数据仓库的数据主要供企业决策分析之用,某个数据一旦进入数据仓库,只要它没有数据仓库的数据存储期限,一般就不会被更新。,插入,删除,访问,修改,数据库,抽取、载入,时间维,数据仓库,(,b),非易失性,9,第一节数据仓库的原理,随时间变化的,数据仓库随着时间的变化,不断增加新的数据。,支持决策系统,数据仓库组织的根本目的在于对决策的支持。,10,第一节数据仓库的原理,三、数据仓库中的层次结构,一个典型的企业数据仓库系统3层结构:,数据获取层、,数据存储与管理层,、,数据访问层,11,第一节数据仓库的原理,数据获取层,对,MIS、,网管和其他外部数据源中的数据进行抽取、清洗、转换,并加载到数据仓库。,数据存储与管理层,实现对数据仓库中数据和源数据的集中存储与管理,进行抽取、清理和有效集成,按照主题进行组织,并可根据需求建立面向部门和主题的部门级数据仓库,或称为数据集市。,采用在线分析处理(,OnLine Analysis Processing,OLAP),服务器技术对数据进行有效集成和组织,以便进行多角度、多层次的分析,并发现趋势。,12,第一节数据仓库的原理,数据访问层,通过多样化的前端分析展示工具(主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具),实现对数据仓库中数据的分析和处理,形成市场经营和决策工作所需要的科学、准确、及时的业务信息和知识。,13,第一节数据仓库的原理,四、数据仓库与数据库的区别,14,第二节数据仓库体系结构,一、数据仓库的体系结构,通常包括4个部分:,源数据、管理部分、数据仓库和应用部分,。,15,第二节数据仓库体系结构,二、数据仓库体系结构中的重要组件,1.数据抽取、转换、装载工具,ETL(Extract/Transformation/Load),它是把数据从不同的操作型数据库中拿出来,进行必要的转化、整理,再存放到数据仓库内。,16,第二节数据仓库体系结构,2.元数据,元数据在数据仓库中的,用途,有:,起到辅助决策分析过程中,定位,数据仓库的,目录,作用,数据从业务环境向数据仓库环境传送时数据仓库的,目录内容,指导从近期基本数据到轻度综合数据和到高度综合数据的,综合算法选择,17,第二节数据仓库体系结构,3.数据集市(,Data Marts),为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(,Subject data),4.数据仓库管理工具,数据仓库管理工具的主要内容有:安全和特权管理;跟踪数据的更新;数据质量检查;管理和更新元数据;审计和报告数据仓库的使用和状态;删除数据;复制、分割和分发数据;备份和恢复;存储管理,18,第三节数据仓库的开发,一、数据仓库的数据模式,1.,星式模式,一个简单的星式模式(,Star Schema),是由一个事实表和多个维表组成。复杂的星式模式包含若干个事实表和维表。,19,第三节数据仓库的开发,2.雪花模式,雪花模式(,Snow Flake Schema),是对星式模式的扩展,它的每个维表都可以向外面连接多个维。,20,第三节数据仓库的开发,二、数据仓库的设计方法,在设计数据仓库时一般采用的方法有自顶向下方法、自底向上方法、自顶向下和自底向上综合的方法。,1.,自顶向下方法,自顶向下方法是从商业需求出发直接构建全局数据仓库,即从原来分散存储的已有的企业,OLTP,数据库中通过数据提取、净化、转换和聚集等处理建立全局数据仓库。,21,第三节数据仓库的开发,2.自底向上方法,自底向上方法是从实验和基于技术的原型入手,选择一个部门或特定商业问题的数据集市开始,全局数据仓库则建立在数据集市的基础上。,22,第三节数据仓库的开发,三、数据仓库的设计过程,1.需求分析,了解用户建立数据仓库的商业目标、使用数据仓库的操作环境、数据仓库应具有的功能、特征和开发投资;,2.概念模型设计,确定各个主题域的内容以及它们之间的关系,建立,E-R,图;,3.逻辑模型设计,将概念模型转换为逻辑模型,主要工作有分析主题域、确定粒度划分层次、确定数据分割策略、确定关系模式、定义记录系统;,4.物理模型的设计,确定数据的存储结构、索引策略、数据的存储位置和存储分配;,23,第三节数据仓库的开发,四、数据仓库生命周期,数据仓库的整个生命周期:,调查需求,,分析环境,,确定体系结构,,数据仓库具体设计,,数据仓库的运行和数据管理,24,第三节数据仓库的开发,5个过程可分为两大阶段:,数据仓库生成阶段,这一阶段的工作主要是将数据从操作型的数据库系统装载到数据仓库中来,如何正确抽取、综合、转换数据是要考虑的主要问题。,数据仓库的运行和维护阶段,25,第四节联机分析处理,OLAP,一、,OLAP,的基本概念,联机分析处理:,是一种使分析人员能迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的的软件技术。,是一种基于关系数据库并对数据进行分析的交互式决策方法。,26,第四节联机分析处理,OLAP,OLAP,的,功能特征,:,具有多维数据库,OLAP,给出了数据仓库中数据的多维逻辑视图,这种视图通过一种更为直观的分析模型,使得模型设计和分析就像是在层次之间与层次内部的计算一样便利。,27,第四节联机分析处理,OLAP,交互式的快速响应查询,OLAP,采用了细剖较低层的详细数据或统揽较高层的概括性和聚集数据来进行交互式查询,同时为了提高查询和响应速度,它还采用了数据的矩阵存储技术和一系列的数据压缩技术。,动态数据分析,OLAP,则是侧重于动态数据的分析,并可以在其内部对数据进行自动转换,使得用户可以在交互过程中获得明确的分析结果,切片功能、钻探功能,28,第四节联机分析处理,OLAP,多维检索功能,OLAP,能检索并显示二维或三维表格、图表和图表中的数据,并能容易地变换为基准轴,从而能综合不同角度分析到的数据,更好地支持决策,29,第四节联机分析处理,OLAP,二、,OLAP,实例,30,第四节联机分析处理,OLAP,二、,OLAP,实例,31,第四节联机分析处理,OLAP,三、,OLAP,和,OLTP,的区别,OLTP,OLAP,数据源,数据库原始数据,数据库导出数据或数据仓库数据,数据类型,细节性数据,综合性数据,更新次数,经常更新,不可更新,但要周期性地刷新,用户数量,数量大,相对较少,面向对象,面向操作人员,支持日常操作,面向决策人员,支持管理需要,32,第五节数据挖掘技术,一、数据挖掘的基本概念,1.数据挖掘的定义,数据挖掘就是从大量的、不完全的、有噪声的、模糊和随机的实际应用数据中,提取,隐含的、目前未知但潜在有用的模式的非平凡,过程,;,数据挖掘作为知识发现过程的一个特定步骤,它是对大容量数据和数据间关系进行考察和建模的方法集;,它的,目标,是将大容量数据转化为有用的知识信息,这些信息对预测趋势和决策行为是至关重要的。,33,第五节数据挖掘技术,2.数据挖掘的过程,数据挖掘的过程一般由3阶段组成:,数据准备、数据挖掘、结果的解释评估,。数据挖掘可以描述为这3个阶段的反复,.,34,第五节数据挖掘技术,3.数据挖掘的分类,根据数据挖掘的任务分:,预测模型挖掘、总结规则挖掘、关联规则挖掘、聚类规则挖掘、趋势分析、偏差分析等;,根据数据挖掘的对象分:,关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据、异质数据库、遗产(,legacy),数据库,以及,Web,数据源;,根据数据挖掘的方法分:,决策树法、人工神经网络方法、统计分析方法、遗传方法和数据库方法。,35,第五节数据挖掘技术,二、数据挖掘的功能,自动预测趋势和行为,关联分析,聚类,概念描述,偏差检测,36,第五节数据挖掘技术,三、数据挖掘与,OLAP,数据挖掘和,OLAP,是两种不同基于数据仓库的应用工具,它们的,用途不同,,基于的,技术也大相径庭,;,OLAP,是,验证式,的工具,,OLAP,分析过程是一个,演绎推理,的过程;,数据挖掘与,OLAP,不同的地方是,数据挖掘不是用于验证某个假定的模型的正确性,而是在数据库中自己,寻找模型,;,数据挖掘过程是一个,归纳,的过程。,37,第六节 数据挖掘的方法和工具,一、数据挖掘的方法,数据挖掘的方法大致可分为4类:,机器学习方法:,归纳学习方法、基于范例的推理,CBR、,遗传算法、贝叶斯信念网络等,统计方法:,回归分析、判别分析、探索性分析、以及模糊集、粗糙集、支持向量机等方法,神经网络方法:,前向神经网络、自组织神经网络,数据库方法:,基于可视化的维数据分析或,OLAP,方法,38,第六节数据挖掘的方法和工具,二、数据挖掘的系统,Enterprise Miner,(,SAS,公司),Intelligent Miner,(,IBM,公司),SetMiner,(,SGI,公司),Clementine,(,SPSS,公司),Warehouse Studio,(,Sybase,公司),See5,(,RuleQuest,Research,公司)等。,39,第六节数据挖掘的方法和工具,三、数据挖掘的应用,零售,/,市场,识别顾客的购买模式,发现顾客人口统计特征方面的关联,预测对邮寄促销活动的反映,市场购物分析,银行,发现伪信用卡使用模式,识别诚信顾客,预测可能更换信用卡的顾客,确定不同顾客群使用信用卡消费的情况,保险,需求分析,预测购买新险种的顾客,40,36,、自己的鞋子,自己知道紧在哪里。,西班牙,37,、我们唯一不会改正的缺点是软弱。,拉罗什福科,38,、我这个人走得很慢,但是我从不后退。,亚伯拉罕,林肯,39,、勿问成功的秘诀为何,且尽全力做你应该做的事吧。,美华纳,40,、学而不思则罔,思而不学则殆。,孔子,xiexie!,谢谢!,
点击显示更多内容>>

最新DOC

最新PPT

最新RAR

收藏 下载该资源
网站客服QQ:3392350380
装配图网版权所有
苏ICP备12009002号-6