,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2024/11/17,数据仓库与数据挖掘,1,第,3,章 数据仓库系统的设计与开发,通过对数据仓库的概念、体系结构与存储结构、,ETL,过程等内容了解以后,如何建立数据仓库系统呢?,2024/11/17,数据仓库与数据挖掘,2,3.1,数据仓库系统的设计与开发概述,建立一个数据仓库系统的参考步骤,数据仓库系统的生命周期,创建数据仓库系统的两种思维模式,数据仓库数据库的设计步骤,2024/11/17,数据仓库与数据挖掘,3,建立一个数据仓库系统的参考步骤,数据仓库系统的建立是一个复杂而漫长的过程。涉及到:,源数据库系统,数据仓库对应的数据库系统,数据分析与报表工具,2024/11/17,数据仓库与数据挖掘,4,建立一个数据仓库系统的参考步骤,收集和分析业务需求步骤,建立数据模型和数据仓库的物理设计,定义数据源,选择数据仓库技术和平台,从操作型数据库中抽取、清洗及转换数据到数据仓库,选择访问和报表工具,选择数据库连接软件,选择数据分析和数据展示软件,更新数据仓库,2024/11/17,数据仓库与数据挖掘,5,数据仓库系统的生命开发周期,数据仓库系统的开发与设计是一个动态的反馈和循环过程。,一个数据仓库系统包括:,数据仓库数据库,数据分析应用系统,2024/11/17,数据仓库与数据挖掘,6,数据仓库系统的生命开发周期,2024/11/17,数据仓库与数据挖掘,7,建立数据仓库系统的两种思维模式,自顶向下(,Top-down,),将数据通过,ETL,汇集到数据仓库中,然后再把数据通过复制的方式存入各个数据集市中。,自底向上(,Bottom-Up,),通过,ETL,将数据汇集到数据集市中,再将数据汇集到数据仓库中。,2024/11/17,数据仓库与数据挖掘,8,数据仓库数据库的设计步骤,2024/11/17,数据仓库与数据挖掘,9,3.2,基于,SQL Server,的数据仓库数据库设计过程详解,SQL Server 2005,介绍,集成了三个服务。,SQL Server 2005,的数据仓库架构,2024/11/17,数据仓库与数据挖掘,10,MS SQL Server 2005,的数据仓库架构,2024/11/17,数据仓库与数据挖掘,11,3.2,基于,SQL Server,的数据仓库数据库设计过程详解,包括以下步骤:,分析组织的业务状况及数据源结构,组织需求调研,收集业务需求,采用信息包图法进行数据仓库的概念模型设计,利用星形图进行数据仓库的逻辑模型设计,数据仓库的物理模型设计,2024/11/17,数据仓库与数据挖掘,12,分析组织的业务状况及数据源结构,以,SQL Server 2005,实例数据库,Adventure Works DW,中所描述,Adventure Works Cycles,公司的用户需求为例。,公司概况,业务系统流程介绍,对数据源结构的分析与理解,2024/11/17,数据仓库与数据挖掘,13,组织需求调研,收集业务需求,坚持数据驱动,+,用户(需求)驱动的设计理体念,因此需要充分了解用户的需求,进而对需求进行分析。,关于用户需求的调研(确定主题域),对用户需求调研结果的分析(确定度量指标和维度),2024/11/17,数据仓库与数据挖掘,14,物理模型,星型、雪花模型,物理数据模型,概念模型,逻辑模型,面向用户的需求,细 化层次,更详细的,技术细节,信息包图,采用信息包图法进行概念模型设计,2024/11/17,数据仓库与数据挖掘,15,信息包图:是数据仓库的数据模型的第一层或最高层。由于大多数商务数据是多维的,但传统的数据模型表示三维以上的数据有一定困难。而信息包图简化了这一过程并且允许用户设计多维信息包并与开发者和其他用户建立联系。这种模型集中在用户对信息包的需要,信息包提供了分析人员思维模式的可视化表示。,信息包图法简介,2024/11/17,数据仓库与数据挖掘,16,工作:,确定系统边界:决策类型、需要的信息、原始信息,确定主题域及其内容:主题域的公共键码、联系、属性组,确定维度:如时间维、销售位置维、产品维、组别维等,确定类别:相应维的详细类别,确定指标和事实:用于进行分析的数值化信息,2024/11/17,数据仓库与数据挖掘,17,信息包图的建立,信息包:,维度,类别,空白信息包图样式,指标和事实,2024/11/17,数据仓库与数据挖掘,18,例,试画出销售分析的信息包图。,解:首先根据销售分析的实际需求,确定信息包的维度、类别和指标与事实:,(,1,)维度:包括日期维、区域维、产品维、客户维、广告维(待用)等。,(,2,)类别:确定各维的详细类别,如:日期维包括年(,5,)、季度(,20,)、月(,60,)、日(,1800,),括号中的数字分别指出各类别的数量;区域维包括国家(,10,)、省州(,100,)、城市(,500,)、销售点(,8000,),括号中的数字同样分别指出各类别的数量;类似地,可以确定产品维、客户维、广告维等的详细类别。,(,3,)指标和事实:确定用于进行分析的数值化信息,包括实际销售额、计划销售额和计划完成率。,2024/11/17,数据仓库与数据挖掘,19,销售分析的信息包图,日期维,区域维,产品维,客户维,广告维(待用),年度,(5),国家,(10),产品类别,(500),年龄分组,(7),广告费分组,(2),季度,(20),省州,(100),产品名称,(9000),收入分组(,8,),月,(60),城市,(500),信用组(,2,),日(,1800,),销售点,(8000),指标和事实,:,实际销售额、计划销售额、计划完成率,信息包:,销售分析,维度,类别,2024/11/17,数据仓库与数据挖掘,20,设计基于主题域的概念模型,供应商,ID,相关,信息,有关信息,商品信息,供应商,供应商主题,顾客,顾客,ID,顾客主题,商品,商品,ID,商品主题,2024/11/17,数据仓库与数据挖掘,21,利用星形图进行数据仓库的逻辑模型设计,根据分析需求与信息包图制作星形图,销售分析,客户,广告,区域,时间,产品,2024/11/17,数据仓库与数据挖掘,22,根据分析需求与信息包图制作雪花图,销售分析,客户,广告,区域,时间,产品,产品类别,雪花模型对星型模型的维度表进一步标准化,对星型模型中的维度表进行了规范化处理。,2024/11/17,数据仓库与数据挖掘,23,确定主题的属性组,主题名,公共键码,属性组,商品,商品号,基本信息:商品号、商品名、类型和颜色等,采购信息:商品号、供应商号、供应价、供应日期和供应量等,库存信息:商品号、库房号、库存量和日期等,销售,销售单号,基本信息:销售单号、销售地址等,销售信息:客户号、商品号、销售价、销售量和销售时间等,客户,客户号,2024/11/17,数据仓库与数据挖掘,24,事实表及其特征,度量是客户发生事件或动作的事实记录,如客户打电话,可能选择的度量有通话时长、通话次数和通话费用等。客户购买商品,可能选择的度量有购买的次数、购买商品的金额和购买商品的数量等。,事实表则是在星型模型或雪花模型中用来记录业务事实,并作相应指标统计的表。,事实表的特征有:,记录数量情况,维度表情况,2024/11/17,数据仓库与数据挖掘,25,事实表的类型与设计,事实是一种度量,所以事实表中的这种指标往往需要具有数值化和可加性的特征。即:,要考虑决策分析的需要(必要的数据),要考虑系统运行的需要(派生的数据),2024/11/17,数据仓库与数据挖掘,26,粒度的选择与设计步骤,根据需求和系统运行情况确定粒度:,粒度的不同选择导致逻辑模型的差异,粒度的不同选择导致数据存储容量的差异,粒度的设计步骤:,粗略估计数据量,确定粒度的级别,粒度设计实例:,2024/11/17,数据仓库与数据挖掘,27,关于数据仓库的聚合模型,数据的分割处理,星形图中的维度表简介,常用维度的设计模式,2024/11/17,数据仓库与数据挖掘,28,事实表及其特征,事实表的类型与设计,粒度的选择与设计步骤,关于数据仓库的聚合模型与数据的分割处理,星形图中的维度表简介,常用维度的设计模式,2024/11/17,数据仓库与数据挖掘,29,数据仓库的物理模型设计,物理模型设计的主要工作,物理存储结构设计的原则,数据仓库索引设计的特殊性,存储优化与存储策略,2024/11/17,数据仓库与数据挖掘,30,3.3,使用,SQL Server 2005,建立多维数据模型,SQL Server 2005,示例数据仓库环境的配置与使用,基于,SQL Server 2005,示例数据库的多维数据模型的建立与应用。,2024/11/17,数据仓库与数据挖掘,31,3.3,使用,SQL Server 2005,建立多维数据模型,在,SQL Server 2005,数据库环境中安装数据仓库组件、示例和工具,利用示例数据仓库(,AdventureWorks DW,)环境及帮助系统学习,2024/11/17,数据仓库与数据挖掘,32,3.3,使用,SQL Server 2005,建立多维数据模型,创建一个新的数据仓库分析项目,定义数据源,定义数据源视图,定义多维数据集,部署,“,销售分析示例,”,项目,浏览已部署的多维数据集,提高多维数据集的可用性和易用性,33,可编辑,感谢下载,