阿里数据同步的前世今生,巴真,陈守元,阿里数据同步的前世今生巴真 陈守元,阿里数据同步前世今生,历程,展望,背景,阿里数据同步前世今生历程展望背景,背景,历程,展望,阿里数据同步前世今生,背景历程展望阿里数据同步前世今生,阿里数据同步的前世今生课件,背景,-,阿里数据开发流程,需求分析,业务建模,数据集成,数据开发,数据测试,线上部署,结果集成,背景-阿里数据开发流程需求分析业务建模数据集成数据开发数,需求分析,业务建模,数据集成,数据开发,数据测试,线上部署,结果集成,业务异构数据集成到离线计算平台,背景,-,阿里数据开发流程,需求分析业务建模数据集成数据开发数据测试线上部署结果集成业务,需求分析,业务建模,数据集成,数据开发,数据测试,线上部署,结果集成,计算结果数据导入在线业务平台,背景,-,阿里数据开发流程,需求分析业务建模数据集成数据开发数据测试线上部署结果集成计算,同构,在线,异构,离线,背景,数据同步本质,同构在线异构离线背景 数据同步本质,历程,背景,展望,阿里数据同步前世今生,历程背景展望阿里数据同步前世今生,2005,年,史前时代,2005,年,2007,年,2009,年,2013,年,Oracle,Rac,Hadoop,飞天,/Hadoop,数据平台发展之初,计算平台,单节点,Oracle,调用系统,?,同步,/,集成使用脚本封装,业务需求,历程,数据平台的追溯,2005年 史前时代2005 年2007 年2009 年2,2005,年,2007,年,2009,年,2013,年,Oracle,Rac,Hadoop,飞天,/Hadoop,2007,年,发展之初,数据业务逐步快速发展,计算平台,采用,Rac,,后扩充为,20,节点,调用系统使用,crontab,定时调用,同步,/,集成仍然采用脚本封装,数据开始为公司决策服务,历程,数据平台的追溯,2005 年2007 年2009 年2013 年Oracle,2005,年,2007,年,2009,年,2013,年,Oracle,Rac,Hadoop,飞天,/Hadoop,2009,年,黄金时期,数据业务进入高速发展时期,计算平台,开始使用,Hadoop,调用系统使用天网调度系统,同步,/,集成使用定制化工具,数据开始为社会提供服务,历程,数据平台的追溯,2005 年2007 年2009 年2013 年Oracle,2005,年,2007,年,2009,年,2013,年,Oracle,Rac,Hadoop,飞天,/Hadoop,2013,年,云计算平台,数据平台成为集团单独事业部门,计算平台为,Hadoop/,飞天,调度系统使用工作流,+,分布式资源框架,同步工具采用,DataX/TT,数据平台将作为阿里云计算平台为社会提供服务,历程,数据平台的追溯,2005 年2007 年2009 年2013 年Oracle,阿里集团前端服务,(,淘宝,/,天猫,/,一淘,/B2B/,支付宝,),Mysql,Oracle,HBase,OB,TFS,DataX,TT,离线计算平台,实时计算平台,DataX,Mysql,Oracle,HBase,OB,TFS,数据产品,报表,展现应用,Adhoc,应用层,源数据层,数据集成层,计算中心层,数据同步层,宿数据层,结果展现层,数据流动,历程,数据流动的现状,阿里集团前端服务(淘宝/天猫/一淘/B2B/支付宝)Mys,应用,数据同步总线,结构化数据,实时流式,同步,非结构化数据,实时流式,同步,结构化数据,离线,同步,流式数据,计算框架,离线数据计算框架,实时计算,MySQL Cluster,HBase,中间层,搜索引擎,非结构化数据源,应用服务器,分布式资源池,数据中心,结构化数据源,对内数据支撑:,商业智能与决策支持,产品运营分析,系统运维,数据产品,应用,中间件服务,工作流调度,历程,数据流动的现状,应用数据同步总线结构化数据非结构化数据结构化数据流式数据离线,实时,结构化,非实时,非结构化,现状,同步的领域细分,实时结构化非实时非结构化现状 同步的领域细分,现状,同步的领域细分,维度,DataX,TT,系统目标,解决任意异构数据源的数据离线交换,解决异构数据实时传输的平台,实时性,低,高,数据结构化,结构化、半结构化,结构化、非结构化,(,日志,),数据源支持,覆盖阿里几乎所有类型的数据存储、计算系统,较,DataX,少,数据源必须提供增量解析接口,服务形式,工具包、服务平台,服务平台,开源类似产品,Sqoop,flume,、,chukwa,、,scribe,现状 同步的领域细分维度DataXTT系统目标解决任意异,DataX Service,现状,DataX,结构,管理、监控数据同步集群,DataX Master,管理、监控每个同步作业,DataX Slave,管理、监控每个同步子任务,DataX Instance,管理、监控每个同步示例,/,同步插件,DataX Plugin,负责数据的抽取、转换、装载,Service Cluster,Master,Master,Slave,Slave,Slave,Instance,Instance,Instance,Reader,Writer,Transformer,现状 DataX 结构管理、监控数据同步集群管理、监控每,现状,DataX,结构,DataX,集群,M,S,M,S,M,S,S,S,S,S,S,S,S,S,S,M,S,Master,Slave,Launch,FailOver,现状 DataX 结构DataX 集群MSMSMSSSS,现状,TT,结构,TT,集群,FileTailer,DBSync,Shrek,Broker,Broker,Broker,Broker,HBase,ODPS Writer,HDFS Writer,现状 TT 结构TT 集群FileTailerDBSyn,展望,背景,历程,阿里数据同步前世今生,展望背景历程阿里数据同步前世今生,展望,阿里大数据和云,数据云服务,数据同步,离线数据总线,分布式资源管理框架,同步网关,实时数据总线,计算中心,存储中心,工作流引擎,元数据服务,应用云,阿里云服务平台,展望 阿里大数据和云数据云服务数据同步离线数据总线分布式,Conversation,Conversation,