资源预览内容
第1页 / 共19页
第2页 / 共19页
第3页 / 共19页
第4页 / 共19页
第5页 / 共19页
第6页 / 共19页
第7页 / 共19页
第8页 / 共19页
第9页 / 共19页
第10页 / 共19页
第11页 / 共19页
第12页 / 共19页
第13页 / 共19页
第14页 / 共19页
第15页 / 共19页
第16页 / 共19页
第17页 / 共19页
第18页 / 共19页
第19页 / 共19页
亲,该文档总共19页全部预览完了,如果喜欢就下载吧!
点击查看更多>>
资源描述
,10/20/2018,#,10/20/2018,#,实时工业大数,据平台设计,技,术创新,变革未来,实时工业大数据平台设计技术创新,变革未来,1,I,have,a,dream!,有梦想固然是好的,但是,任,何不,以,落地,为,目的,的,梦想,都,是空,想,。,在明确实际的立足点之,后,,围绕着,目,标就,要,分清,Want,与Need了。,Want,是,梦,想,而,Need,是需求,是可,以,落地,可,以成,为,目标,的,实体。,大数据的挑,战,.,I have a dream!有梦想固然是好的,但是任何不以,2,立足于制造行业来看,直接影 响到大数据成功与否的因素大 致如左图所,示,。,数据集成,也可以说是多方数 据平台化的汇总吧。,对于制造行业,的,数据质量往往,是不能得到足够保证的,。,大数据的挑,战,.,立足于制造行业来看,直接影 响到大数据成功与否的因素大 致如,3,看到的现象,表面原因,过渡原因,根本原因,大数据平台待建,数据库计算能力不足,数据量大,个性化平台,业务数据孤岛,实时海量存储计算,人力不足,成本过高,技术沉淀不足,如何解,决,.,4,看到的现象表面原因过渡原因根本原因大数据平台待建数据库计算能,数据湖的概念,多元化数据源接入,多元化数据格式 低成本存储,简单模型弹性扩展,引流出多元化功能性支流,可便捷构建数据仓库 数据分析与科学计算,松耦合全量数据,更易于发掘数据本身,的,潜在,价,值,精细化规范体系建设,避免数据湖沦为数据,沼,泽,什么是数据湖(Data,Lake),数据湖并不是一个纯技,术,概念,,,而是 数据管理的一种方法论。,数据湖实际上是一种利,用,低成,本,技术 来,捕捉,,,提炼,,,储存,和,探,索,大,规,模的 长期的原始数据的方法,与,技术,实,现。,数据湖特征,数据存储:大容量低成,本,;,数据保真度:数据湖以,原,始的,格,式保 存数据,具有高保真度;,数据使用:数据湖中的,数,据可,以,方便,的被使用,进而引流到,外,围应,用,;,延迟绑,定,:不,需要,提前定,义,数据,模型,。,数据湖的概念多元化数据源接入 多元化数据格式 低成本存储引流,5,数据湖的发展阶段,3,蛮荒期,6,企业各类数据分析通过 传统数据仓库来实现,1,萌芽期,2,企业引入了大数,据,平台,企业的应用数据和大数 据平台有交互,新的系统直接支持大数,据,平台,大数据平台成为缺省配置,数据仓库只在特,定,场景,下,使用,外部的数据也引入数据,湖,泊中,成长期,成熟期,4,数据湖和应用组,件,完善,大数据平台大量采用,加,强其可靠性和安全性,对,外,提供丰富的应用接口,做,到,多租户的云服务,数据湖的发展阶段3蛮荒期6企业各类数据分析通过 传统数据仓库,1,4,2,3,数据库数据实时接入,异构数据库数据融合 每秒百万级数据接入,数据备份及容灾功能 数据快照及数据回溯 百亿级数据亚秒级查询,单位格级别统一权限管理 金融级自动化数据加密 敏感数据脱敏,海量数据机器学习及数据挖掘系统 海量小文件存储及检索,无间断动态扩容,5,高压缩比文件储存,标,准SQL,接口,灵活扩展,湖平台,7,集团,数据湖产品,1423数据库数据实时接入 异构数据库数据融合 每秒百万级数,数据,湖,建设目的,集团数据平台,在,统一规,划,和运,营,的基,础,上,,,可,根据,用,户的,能,力和,需,求,,提,供,灵,活,、多,样,、敏,捷,的服,务,,协助企业建立自身大数,据,应用,能,力。,目,前,,集,团数,据,平台,技,术已,经,逐步,产,品化,,,并计,划,向合,资,企业,和,外 部企业输出。同时,在,数,据应,用,项目,的,过程,中,平台,将,积累,共,性需,求,,形,成,数据,产,品、,算,法服,务,。,数据湖产品,数 据 产 品,/算 法 服 务,数据湖建设目的集团数据平台在统一规划和运营的基础上,可根据用,8,数据湖产品框架,9,采用,开源软件架,构,,构建,的,实时大,数,据集,成,平台,。,降低,企,业使,用,大数,据,技术,的,成本,,,为数,据,分析,师,、业,务,分析师 们提供更高效易用的工具,加速数,据,应用,的,建设,和,推广,,,并提,供,全字,段,金融,等,级3DES加密,,,自动,无,感知,的,密钥更 新,防止密钥泄露。单元格级别权,限,控制,和,数据,脱,敏访,问。,为,集,团大,数,据平,台,一体,化,打下,基,础。,数据湖产品框架9采用开源软件架构,构建的实时大数据集成平台。,数据湖产品框架,数据湖产品框架,10,整个数据湖体系分为三,个,部分,:,多源,数,据接,入,、中,心,湖群,、,外围,流,域。,多源数据接入:可分为,结,构化,数,据(,需,保证,强,一致,性,的数,据,库数,据,)、,半,/非结,构,化数,据,(不,需,要保,证,一 致性的日志、音频数据,),。,中心湖区:由核心业务,对,应的,中,心湖,区,和其,他,功能,湖,组成,。,集团,湖,与企,业,湖之,间,通过,统,一的,数,据交,换,层实,现数据交换。中心湖的,数,据受,到,严格,监,管,,包,括:,数,据资,产,管理,、,数据,审,计等。,外围流域:从中心湖区,通,过统,一,的数,据,交换,层,,将,数,据引,流,到多,元,化的,数,据载,体,中,,提,供各,类,型的,数,据分 析与科学计算应用服务。,数据湖物理架构,11,整个数据湖体系分为三个部分:多源数据接入、中心湖群、外围流域,结构化数据,湖,概览图,分布式涓流传输集群,完美融合存,量,数据,高,速并,发,导入,与,增量,数,据导,入,。,任务总线控制涓流数据加密后入库到HBase数据,库,分片,数,据存,储,,同,时,记录,metastore,。基于Hive,和,Spark,的定制版Handle提供,HiveSQL,和,SparkSQL,接口,,,同时,完,成数,据,出库,的,解密。,在定制化工作台内,植入汽车行业,相,关业,务,的智,能,算法,库,,实,现,拖曳,式,智能,算,法应,用,。新,增,文件,湖,和日,志,湖 的架构,以支持车联网数据的承接,与,应用。,结构化数据湖概览图分布式涓流传输集群,完美融合存量数据高速并,12,日志湖与文件湖概览图,日志湖区和文件湖区往往数据量非,常,大,,且,价值,密,度较,低,。对,于,这类,数,据不,要,求强,一,致性,,,故而,可,不进,行,数 据审计和定期数据一致性校验。,日志湖和文件湖多以半,/,非结构化数,据,为主,,,需要,进,行关,联,分析,的,进行,模,型转,换,,并,将,其导,入,到集,团,湖的,HDFS,或,HBASE中。,TBOX,数据和用户网页行为分析的数据,,,数据,产,生并,发,度高,,,数据,流,量大,,,需要,用,Kafka集,群,进行,数,据承,接,,承接过程中需要进行一定比例的数,据,压缩,,,之后,直,接存,储到,HDFS,中,,,通过HIVE外,部,表的,形,式进,行,访问,,,以降 低集群负载。,对于文件中心的音频文件,推荐进,行,语音,识,别,,将,其转,换,为文,本,之后,,,再行,入,库。,13,日志湖与文件湖概览图日志湖区和文件湖区往往数据量非常大,且价,BigData on,Docker,14,BigData on Docker14,性能测试,涓流复制传输平均速度:3万行/min。,数据湖在查询性能上,约为,Hive(Parquet),的1020倍,,,且与,Spark(Parquet),相差无几。,性能测试涓流复制传输平均速度:3万行/min。,15,如下图所示,完成数据,湖,主页,面,装载;,成功接入,Oracle,、,MySQL,、,SQL,Server,三个数据库的实时。,数据湖平,台,UI,看板,16,如下图所示,完成数据湖主页面装载;数据湖平台UI 看板,数据安全管理页面,可以完成加密,方,式、,脱,敏控,制,、列,访,问权,限,、行,查,询权,限,的设,置,。,以表,INVOICE_DOC,为,例,,针,对,INV_TYPE,列,,,组合,四,种安,全,选项,的,设置,,,达到,单,元格,级,别的,加,密和权 限控制。,数据湖平,台,UI,安全管理,17,数据安全管理页面,可以完成加密方式、脱敏控制、列访问权限、行,生产环境用户遍布,集团,18,生产环境用户遍布集团18,21,21,
点击显示更多内容>>

最新DOC

最新PPT

最新RAR

收藏 下载该资源
网站客服QQ:3392350380
装配图网版权所有
苏ICP备12009002号-6