单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2005 iSoftStone Information Service Corporation.All rights reserved.,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,2005 iSoftStone Information Service Corporation.All rights reserved.,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,iSoftStone,Information Service Corporation,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,iSoftStone,Information Service Corporation,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,数据仓库基础知识,数据仓库基本,概,概念,1.1从传统,数,数据库到数据,仓,仓库,1.2数据仓,库,库定义及基本,特,特性,1.3数据仓,库,库与决策支持,系,系统,1.4数据仓,库,库体系结构,1.5数据仓,库,库相关概念,1.1,从传统数据库,到,到数据仓库,随着市场竞争,的,的加剧,信息,系,系统的用户已,经,经不满足于仅,仅,仅用计算机去,处,处理每天所发,生,生的事务数据,,,,而是需要信,息,息,能够支持决策,的,的信息,去帮,助,助管理决策。,这,这就需要一种,能,能够将日常业,务,务处理中所收,集,集到的各种数,据,据转变为具有,商,商业价值信息,的,的技术,传统,数,数据库系统无,法,法承担这一责,任,任。因为传统,数,数据库的处理,方,方式和决策分,析,析中的数据需,求,求不相称。这,些,些不相称性主,要,要表现在决策,处,处理中的系统,响,响应问题、决,策,策数据需求的,问,问题和决策数,据,据操作的问题,。,。,1.1,从传统数据库,到,到数据仓库,(,续,),传统的事务处,理,理环境不适宜,于,于,决策支持应用,事务处理和分,析,析处理的性能,特,特性不同,数据集成问题,数据动态集成,问,问题,历史数据问题,数据的综合问,题,题,操作型环境和,分,分析型环境的,分,分离,:,数据抽取,现实生活中面,临,临的问题,人们在日常生,活,活中经常会遇,到,到这样的情况,:,:,超市的经营者,希,希望将经常被,同,同时购买的商,品,品放在一起,,以,以增加销售;,保险公司想知,道,道购买保险的,客,客户一般具有,哪,哪些特征;,医学研究人员,希,希望从已有的,成,成千上万份病,历,历中找出患某,种,种疾病的病人,的,的共同特征,,从,从而为治愈这,种,种疾病提供一,些,些帮助;,企业面临的问,题,题,经过多年的计,算,算机应用和市,场,场积累,许多,企,企业保存了大,量,量原始数据和,各,各种业务数据,它是企业,生,生产经营活动,的,的真实记录,由于缺乏集中,存,存储和管理,,这,这些数据不能,为,为本企业加以,利,利用,不能,进,进行有效的统,计,计、分析及评,估,估,无法将这,些,些数据转换成,企,企业有用的信,息,息,数据爆炸问题,自动的数据收,集,集工具和成熟,的,的数据库技术,导,导致巨大的数,据,据存储在文件,系,系统、数据库,和,和其它的信息,库,库中。,我们会淹死在,数,数据中,但却为信息、,知,知识所饿,!,面临的挑战,如何在堆积如,山,山的企业交易,数,数据中发现具,有,有商业价值的,闪,闪光点?,如何使您的企,业,业或组织在激,烈,烈的市场竞争,中,中保持对客户,的,的吸引力?,如何预先发现,和,和避免企业运,作,作过程中不易,察,察觉的商业风,险,险?,数据仓库应运,而,而生,数据仓库的出,现,现和发展,是数据库和,OLTP,技术发展、数,据,据库应用深化,的,的产物;,目的是把数据,库,库中的大量数,据,据转化为有用,信,信息,为企业,更,更好地进行决,策,策服务。,讨论话题一,数据仓库产生,的,的源动力是什,么,么?数据仓库,系,系统是数据驱,动,动还是需求驱,动,动的,?,“,我们花了20,多,多年的时间将,数,数据放入数据,库,库,如今是该,将,将它们拿出来,的,的时候了。,”,-著名,的,的数据仓库专,家,家,RalphKimball,市场需求是技,术,术发展的源动,力,力,1.2数据仓,库,库定义及基本,特,特性,1.2.1数,据,据仓库定义,1.2.2数,据,据仓库基本特,性,性,1.2.1数,据,据仓库定义,数据仓库(,Data Warehouse,)是一个,面向主题的(,Subject Oriented,),集成的(,Integrate,),相对稳定的(,Non-Volatile,),反映历史变化,(,(,Time Variant,),的数据集合,,用,用于支持管理,决,决策。,1.2数据仓,库,库定义,数据仓库是在,企,企业管理和决,策,策中面向主题,的,的、集成的、,与,与时间相关的,、,、不可修改的,数,数据集合。,数据仓库之父-,Bill Inmon,1.2数据仓,库,库基本特性,面向主题性,数据集成性,数据的时变性,数据的非易失,性,性,面向主题性,面向主题性表,示,示了数据仓库,中,中数据组织的,基,基本原则,数,据,据仓库中的所,有,有数据都是围,绕,绕着某一主题,组,组织的。,确定主题以后,,,,需要确定主,题,题应该包含的,数,数据。,不同的主题之,间,间可能会出现,相,相互重叠的信,息,息。,主题在数据仓,库,库中可以用多,维,维数据库方式,进,进行存储。,主题的划分中,,,,必须保证每,一,一个主题的独,立,立性。,数据集成性,根据决策分析,的,的要求,将分,散,散于各处的源,数,数据进行抽取,、,、筛选、清理,、,、综合等工作,,,,最终集成到,数,数据仓库中。,业务数据库,1,业务数据库,2,业务数据库,n,数据仓库,抽取转换清洗加载,数据的时变性,数据应该随着,时,时间的推移而,发,发生变化,不,断,断地生成主题,的,的新快照。,存量数据,T1,时点增量数据,Tn,时点增量数据,数据仓库,抽取转换清洗,加,加载,初始主题数据,T1,时点主题数据,Tn,时点主题数据,数据的非易失,性,性,数据的相对稳,定,定性。,数据仓库中的,数,数据只进行刷,新,新,从不进行,更,更新处理。,反映历史变化,。,。,存量数据,T1,时点增量数据,Tn,时点增量数据,数据仓库,抽取转换清洗,加,加载,初始主题数据,T1,时点主题数据,Tn,时点主题数据,时间戳锁定数,据,据,讨论话题二,数据库和数据,仓,仓库有什么不,同,同?,数据库与数据,仓,仓库的对比,对比内容,数据库,数据仓库,数据内容,当前值,历史的、存档的、归纳的、计算的数据,数据目标,面向业务操作程序、重复处理,面向主题域、管理决策分析应用,数据特性,动态变化、按字段更新,静态、不能直接更新、只定时添加,数据结构,高度结构化、复杂、适合操作计算,简单、适合分析,使用频率,高,中到低,数据访问量,每个事务只访问少量记录,有的事务可能要访问大量记录,对响应时间的要求,以秒为单位计量,以秒、分钟、甚至小时为计量单位,1.3,数据仓库与决,策,策支持系统,决策支持系统,的,的发展阶段,初始阶段(,DSS,阶段),与专家系统结,合,合阶段(,IDSS,阶段),基于数据仓库,技,技术阶段(,BI,阶段),基于数据仓库,的,的决策支持系,统,统,DSS,的先天不足,DSS,的先天不足,决策所需信息,不,不足,难以满,足,足决策支持系,统,统的需要。,模型库提供的,分,分析能力有限,人机接口部件,占,占整个,DSS,开发工作量的,一,一半,成为,DSS,实施中的一个,瓶,瓶颈。,基于数据仓库,的,的,DSS,基于数据仓库,的,的,DSS,数据仓库为,DSS,的发展开辟了,新,新途径,目前,DSS,的开,发,发模,式,式(,BI,解决,方,方案,),),以数,据,据仓,库,库技,术,术为,基,基础,以联,机,机分,析,析、,数,数据,挖,挖掘,工,工具,为,为手,段,段,1.4数,据,据仓,库,库体,系,系结,构,构,接,口,数据,仓,仓库,管理,环境,细节级数据,数据集市,1,数据集市,2,数据集市,n,ETL,逻辑 数据仓库组织与管理 数据利用,元数据,(MetaData),数据集市,x,主题数据,主题数据,主题数据,业务,数,数据,系统,市场,调,调查,信,信息,数据,源,源,外部,数,数据,OLAP,DataMining,Forecasting,应用环境,专家,经,经验,数,数据,1.4.1数,据,据仓,库,库的,概,概念,结,结构,从数,据,据仓,库,库的,概,概念,结,结构,看,看,,应,应该,包,包含,:,:数,据,据源,、,、数,据,据准,备,备区,、,、数,据,据仓,库,库数,据,据库,、,、数,据,据集,市,市,/,知识,挖,挖掘,库,库以,及,及各,种,种管,理,理工,具,具和,应,应用,工,工具,。,。,数据,集,集市,/,知识,挖,挖掘,库,库,业务系统,外部数据源,数据准备区,数据仓库数据库,应用工具,管理工具,应用工具,数据集市,/,知识挖掘库,1.4.2,虚拟,数,数据,仓,仓库,结,结构,虚拟,数,数据,仓,仓库,利,利用,描,描述,了,了业,务,务系,统,统中,数,数据,位,位置,和,和抽,取,取数,据,据算,法,法的,元,元数,据,据直,接,接从,业,业务,系,系统,中,中抽,取,取查,询,询的,数,数据,进,进行,概,概括,、,、聚,合,合操,作,作后,,,,将,最,最终,结,结果,提,提供,给,给用,户,户。,用户,图,1.2,虚拟数据仓库结构,数据仓库查询管理服务器,业务系统数据库,1.4.3,数据,集,集市,结,结构,数据,集,集市,结,结构,或,或称,为,为主,题,题结,构,构的,数,数据,仓,仓库,是,是按,照,照主,题,题进,行,行构,思,思所,形,形成,的,的数,据,据仓,库,库,,没,没有,一,一个,独,独立,的,的数,据,据仓,库,库。,系,系统,的,的数,据,据不,存,存储,在,在同,一,一数,据,据仓,库,库中,,,,每,个,个主,题,题有,自,自己,的,的物,理,理存,储,储区,。,。,数据仓库查询管理服务器,业务系统数据库,主题,1,主题,2,1.4.4,单一,数,数据,仓,仓库,结,结构,将所,有,有的,主,主题,都,都集,中,中到,一,一个,大,大型,数,数据,库,库中,的,的体,系,系结,构,构。,数,数据,源,源中,数,数据,被,被按,照,照同,一,一标,准,准抽,取,取到,独,独立,的,的数,据,据仓,库,库中,,,,用,户,户在,使,使用,时,时再,根,根据,主,主题,将,将数,据,据仓,库,库中,的,的数,据,据发,布,布到,数,数据,集,集市,中,中。,数据仓库查询管理服务器,业务系统数据库,数据仓库,数据集市,1,数据集市,2,1.4.5分,布,布式,数,数据,仓,仓库,结,结构,在企,业,业各,个,个分,公,公司,具,具有,相,相当,大,大的,独,独立,性,性时,,,,企,业,业总,部,部设,置,置一,个,个全,局,局数,据,据仓,库,库,,各,各个,分,分公,司,司设,置,置各,自,自的,局,局部,数,数据,仓,仓库,。,。局,部,部数,据,据仓,库,库主,要,要存,储,储各,自,自的,未,未经,转,转