,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,OLAP的旋转功能,平面数据的坐标轴转换。,12.7,8.5,-4.3,8.9,差量%,-44322,25402,-2995,31102,差量,350000,300000,69000,350000,计划,306677,325402,66005,381102,现有,其它,汽车,家具,服装,销售量,1999,OLAP的旋转功能平面数据的坐标轴转换。12.78.5-4.,1,12.7,-44322,350000,306677,所有其他,8.5,25402,300000,325402,汽车,-4.3,-2995,69000,66005,家具,8.9,31102,350000,381102,服装,差量%,差量,计划,现有,销售量,1999,12.7-44322350000306677所有其他8.52,2,数 据 仓 库 设 计,数 据 仓 库 设 计,3,1.1 系统设计的差异,操作型数据库,数据仓库,面向应用,面向分析,确定的应用需求,应用需求的收集和分析在系统设计前期确定;一旦确定,一般不再改变。,不确定的分析需求,数据分析需求的收集、分析和理解一般贯穿整个系统设计过程。,事务处理性能,数据的全局一致性,数据来自于组织外部,数据获取;存储数据;,数据查询;数据更新;,数据安全;数据有效。,数据来自于系统内部,数据转换、重组、综合;,数据分析效率、准确性。,1.1 系统设计的差异操作型数据库数据仓库面向应用面向分析确,4,1.2 SDLC与CLDS,SDLC,操作型环境中,业务过程和规则比较规范和固定。系统设计人员能够清晰地了解应用的需求和数据流程,系统的设计一般采取系统生命周期法,(,Systems Development Life Cycle),。,CLDS,分析型环境中,,DSS,分析对决策分析的需求不能预先作出规范说明,只能给设计人员一个抽象模糊的描述。设计人员必须在与用户不断的交流中,将系统需求逐步明确与完善。为了强调这种开发的不确定型,将此设计方法定名为,CLDS,方法(与,SDLC,相反)。,1.2 SDLC与CLDSSDLC操作型环境中,业务过程,5,收集应用需求,系统实施,系统测试,应用编程,构建数据库,应用1,应用,B,应用,C,DB,分析应用需求,SDLC,方法,DSS,应用编程,DB,DB,外部数据,数据仓库建模,理解需求,数据获取与集成,系统测试,构建数据仓库,DW,CLDS,方法,“数据驱动”,收集应用需求系统实施系统测试应用编程构建数据库应用1应用B应,6,1.3“数据驱动”的系统设计思路,识别出当前系统设计与已做工作的共同性;出发点,从已有数据库系统出发,按照分析领域对数据及数据之间的联系重新考察,组织数据仓库中的主题;,利用数据模型有效识别原有数据库中的数据和数据仓库中主题的数据的共同性。中心,1.3“数据驱动”的系统设计思路识别出当前系统设计与已做工,7,数据驱动系统设计方法的中心数据模型,操作型数据库设计,数据仓库设计,数据库,数据仓库,操作型数据库,应用开发与设计,DSS,应用,开发与设计,数据模型,数据驱动系统设计方法的中心数据模型操作型数据库设计数据仓,8,2,数据仓库设计的三级数据模型,概念模型,现实世界到机器世界的中间层次信息世界,E-R,法,(实体-联系法),逻辑模型,关系模型,物理模型,逻辑模型在数据仓库中的实现。物理存取方式、数据存储结构、数据存放位置以及存储分配等。,数据模型对现实世界进行抽象的工具。,2 数据仓库设计的三级数据模型概念模型现实世界到机器世界的,9,3 提高数据仓库的性能,粒度划分,细节级、轻度综合级、高度综合级,数据分割,分割的标准:时间、业务领域、地理分布,物理设计中的其他问题,表合并引入冗余建立广义索引建立数据序列表的物理分割生成导出数据,提高系统的物理,I/O,性能,3 提高数据仓库的性能粒度划分细节级、轻度综合级、高度,10,粒度划分,粒度划分的决定性因素是表的总行数,数据存取是通过存取索引来实现的,索引是对应表的行来组织的。因此与表的数据量无关。,估算数据仓库中数据的行数,对每一已知表,统计一年内数据行数的最大行数和最小行数;统计五年内数据行数的最大行数和最小行数。,根据估算出的数据行,决定是否要划分粒度,一年10,5,行左右,细节级、综合级,一年10,6,行以上,细节级、轻度综合级、高度综合级,五年10,6,行左右,细节级、综合级,五年10,7,行以上,细节级、轻度综合级、高度综合级,粒度划分粒度划分的决定性因素是表的总行数 数据,11,表合并,当查询涉及到分散在几个物理块的多个表的数据,表的存取和连接操作会影响系统的性能。,为了节省,I/O,开销,可以把这些表的数据混合存放在一起。,表的合并只是物理上的合并,并非逻辑上的合并,表合并当查询涉及到分散在几个物理块的多个表的数据,表的存取和,12,EN,C,S3,MA,B,S2,CS,A,S1,系别,D,姓名,N,学号,S#,学生表,C,C,C2,S3,B,C1,S3,B,C4,S2,B,C1,S2,A,C4,S1,B,C3,S1,A,C1,S1,成绩,G#,课程号,C#,学号,S#,学生选课表,SC,S1C4A,S1A,SAC3B,S1C1A,S3C,S2B,S2C1B,S3C1B,S2C4B,S3C2C,物理存储块,ENCS3MABS2CSAS1系别姓名学号学生表CCC2S3,13,处理最值问题的方法广义索引。这个月销售最差的十种商品是什么?,从操作型数据库抽取数据并装载到数据仓库的同时,根据用户需要建立广义索引。,引入冗余,建立广义索引,一些表的某些属性经常会被使用到,且不常更新,就可以将这些属性复制到多个表中,从而减少处理时被存取的表的个数。,商品固定信息表(商品号、商品名、类别,),商品销售表(商品名、销售量、销售日期,),商品销售表(商品名、商品名、类别、销售量、销售日期),处理最值问题的方法广义索引。这个月销售最差的十种商品是,14,数据序列,1,3,5,6,4,7,2,物理块1,物理块2,物理块3,1,2,3,4,5,6,7,物理块1,物理块2,数据序列1356472物理块1物理块2物理块31234567,15,表的物理分割,“数据分割”表的逻辑分割。,将一个表按一定的分割标准分成两个或多个表。,表的物理分割,依据数据的存取频率和数据的稳定性来进行;将一张表按照各属性被存取的频率分成两个或多个表。,事先在原始数据的基础上进行总结或计算,生成导出数据。减少了,I/O,的次数,免去计算和汇总的步骤;建立了公共数据源,避免了不同用户进行重复计算可能产生的偏差。,生成导出数据,表的物理分割“数据分割”表的逻辑分割。将一个表按一定的,16,4 数据仓库设计步骤,数据驱动的系统设计方法,设计步骤,概念模型设计,技术准备工作,逻辑模型设计,物理模型设计,数据仓库生成,数据仓库运行与维护,实例:,商店的数据仓库设计,4 数据仓库设计步骤数据驱动的系统设计方法,17,2技术环境准备,2确定主题域,1技术评估,1界定系统边界,概念模型设计,技术准备工作,2数据分割策略,4记录系统定义,1,粒度层次划分,3关系模式定义,1,确定存储结构,4确定存储分配,2确定索引结构,3确定存放位置,逻辑模型设计,物理模型设计,数 据 仓 库 生 成,1,设,计,接,口,2,数,据,输,入,数据仓库运行与维护,分析主题域,针对每一个当前实施的主题域,2技术环境准备2确定主题域1技术评估1界定系统边界概念模型设,18,数据类型,分析,数据仓库设计步骤,源系统,分析,程序,说明,技术评估,粒度分析,编,程,数据,装入,数据仓库设计,运行与维护,技术环境准备,1,8,5,4,3,2,7,6,11,10,9,反 馈,循 环,主题域分析,数据类型数据仓库设计步骤源系统程序技术评估粒度分析编数据数据,19,IBM,IBMVisual Warehouse(VW)Essbase/DB2 OLAP Server 5.0,及管理器,IBM DB2 UDBHyperion Wired for OLAP/Business Objects,InformixInformix Formation,和,Informix DataStageInformix Red Brick Warehouse,数据库,Informix MetaCube OlAP,服务器,Informix MetaCube Exploer/Web Explorer,IBMIBMVisual Warehouse(VW)Es,20,Oracal,Oracal8i关系型数据库引擎,Oracle Warehouse BuilderingETL工具,Express多维数据库引擎,Discover关系OLAP查询工具,Oracle数据挖掘套件,OracalOracal8i关系型数据库引擎,21,其他厂商,MicrosoftSQL ServerPlato和Data Transformation Services,Sybase,SAS,NCR,其他厂商MicrosoftSQL ServerPlat,22,4.1.1,界定系统边界需求分析,要做的决策类型由哪些?,决策者感兴趣的是什么问题?,这些问题需要些什么样的信息?,要得到这些信息需要包含原有数据库系统的哪些部分的数据?,商品的营销策略,顾客的购买趋势、商品供应市场的变化,趋势、分析供应商信用等级,商品销售数据、商品采购数据、商品库,存数据、顾客信息、供应商信息,销售子系统、采购子系统、库存子系统,4.1.1 界定系统边界需求分析要做的决策类型由哪些?,23,4.1.2 确定主题域,确定系统所包含的主题域,描述每个主题域的内容主题域之间的关系主题域的公共码键充分代表主题的属性组,商品、供应商、顾客,商品供应商,顾客,商品供应关系,商品销售关系,E-R,图表示,主题的描述,4.1.2 确定主题域确定系统所包含的主题域商品、供应商,24,4.2.1 技术评估:,确定数据仓库的各项性能指标管理大数据量数据的能力进行灵活数据存取的能力根据数据模型重组数据的能力透明的数据发送和接受能力周期性成批装载数据的能力可设定完成时间的作业管理能力,4.2.1 技术评估:确定数据仓库的各项性能指标管理大数,25,4.2.2 技术环境准备,考虑相关的问题:预期在数据仓库上分析处理的数据量有多大?如何减少或减轻竞争性存取程序的冲突?数据仓库的数据量有多大?进出数据仓库的数据通信量有多大?,确定软硬件配置:直接存取设备(,DASD),网络管理直接存取设备的操作系统进出数据仓库的界面(数据查询和分析工具)管理数据仓库的软件,4.2.2 技术环境准备考虑相关的问题:预期在数据仓库上,26,4.3.1 粒度层次划分,确定采用单一粒度还是多重粒度,以及粒度划分的层次。,商场数据仓库的粒度划分,“商品”主题的数据量庞大,采用多重粒度商品销售记录的数据量最大,定义商品销售数据的层次要更丰富。,周统计销售数据 月统计销售数据 季统计销售数据等等,4.3.1 粒度层次划分确定采用单一粒度还是多重粒度,以及粒,27,4.3.2 数据分割策略,数据量 是否需要数据分割,如何分割,数据分析处理的要求 选择数据分割的标准,简单易行 数据分割要易于理解,易于实施,粒度划分策略 数据分割的标准与粒度划分层次相适应,选择数据划分策略,需考虑的因素有:,4.3.2 数据分割策略数据量 是否需,28,4.3.3 关系模式定义,表,维,商品固有信息,商品表,商品号,商品名,类别,颜色,细节级,商品采购信息,采购表1,供应商号,供应价,供应日期,供应量,细节级,采购表2,商品号、时间段1,采购总量,时间段不等的综合表,采购表,n,商品号、时间段,n,,采购总量,商品销售信息,销售表1,商品号,顾客号,售价,销售日期,销售量,细节级,销售表2,商品号、时间段1,销售总量,时间段不等的综合表,销售表,n,商品号、时间