单击此处编辑母版标题样式,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案:,建议同一页面内不超过四种颜色,以下是,13,组配色方案,同一页面内只选择一组使用。(仅供参考),客户或者合作伙伴的标志放在右上角,.,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案:,建议同一页面内不超过四种颜色,以下是,13,组配色方案,同一页面内只选择一组使用。(仅供参考),客户或者合作伙伴的标志放在右上角,.,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案:,建议同一页面内不超过四种颜色,以下是,13,组配色方案,同一页面内只选择一组使用。(仅供参考),客户或者合作伙伴的标志放在右上角,.,56,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案:,建议同一页面内不超过四种颜色,以下是,13,组配色方案,同一页面内只选择一组使用。(仅供参考),客户或者合作伙伴的标志放在右上角,.,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案:,建议同一页面内不超过四种颜色,以下是,13,组配色方案,同一页面内只选择一组使用。(仅供参考),客户或者合作伙伴的标志放在右上角,.,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案:,建议同一页面内不超过四种颜色,以下是,13,组配色方案,同一页面内只选择一组使用。(仅供参考),客户或者合作伙伴的标志放在右上角,.,Page,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案:,建议同一页面内不超过四种颜色,以下是,13,组配色方案,同一页面内只选择一组使用。(仅供参考),客户或者合作伙伴的标志放在右上角,.,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案:,建议同一页面内不超过四种颜色,以下是,13,组配色方案,同一页面内只选择一组使用。(仅供参考),客户或者合作伙伴的标志放在右上角,.,#,Page,#,49,大数据发展趋势及解决方案,FusionInsight,解决方案,大数据发展趋势及解决方案FusionInsight 解决方案,课程大纲,4,大数据应用场景及成功案例,1,大数据发展背景,2,大数据起源及发展趋势,5,大数据配置报价指南,6,如何获取资源,3,FusionInsight,大数据解决方案介绍,课程大纲4大数据应用场景及成功案例1大数据发展背景2大数据起,大数据已经成为世界各国的国家战略,美国:,白宫,推出,Data,to Knowledge to,Action,计划,,这是美国向数字治国、数字经济、数字城市、数字国防转型要举措,G8,:,奥巴马签署了,透明和开放的政府,美国总统办公室提交,大数据:把握机遇,维护价值,政策报告,强调政府部门和私人部门紧密合作,最大限度地促进增长和利益,减少风险,八国集团发布了,G8,开放数据宪章,,提出要加快推动数据开放和利用,。,2013,欧盟力推,数据价值链战略计划,,用大数据改造传统治理模式,降低公共部门成本,并促进经济增长和就业增长,英国政府发布,英国数据能力发展战略规划,,旨在利用数据产生商业价值、提振经济增长,承诺,2015,年之前开放交通、天气、医疗方面的核心数据库。,安倍内阁正式公布新,IT,战略,创建最尖端,IT,国家宣言,,以开放大数据为核心的,IT,国家战略,中国:,2015,年,3,月的两会上,李克强总理明确表态,,政府应该尽量的公开非涉密的数据,,以便利用这些数据更好的服务社会,也为政府决策和监管服务。,2015,国务院常务会议在,6,月,17,日,部署运用大数据优化政府服务和监管,提高行政效能,。大力发展政务大数据,不仅在于打通部门壁垒、提高行政效率,更在于转变思维观念,助力向智慧政府转型。,全球各主要经济体都已将数据开放作为国家战略,促进未来经济发展,。中国,在顶层设计上已经开始布局大数据,产业,2009,2013,2014,大数据已经成为世界各国的国家战略美国:白宫推出Data to,国务院颁布“大数据纲要”,指导产业布局与落地,十大工程,政府数据资源共享开放工程,国家大数据资源统筹发展工程,政府治理大数据工程,公共服务大数据工程,工业和新兴产业大数据工程,现代农业大数据工程,万众创新大数据工程,大数据关键技术及产业产业研发与产业化工程,大数据产业支撑能力提升,工程,网络和大数据安全保障工程,发,改,委,统,筹,工,信,部,主,导,工信部主导,其他部委主导,IT,行业,重点参与,电信,金融,政府,重点参与,加强大数据基础设施建设,支持地方开展大数据产业发展和应用试点,推动大数据标准体系建设,支持大数据技术和产业创新发展,促进大数据与其他产业的融合发展,国务院颁布“大数据纲要”,指导产业布局与落地十大工程发工工信,大数据趋势:跨越裂谷,走向成熟,进入落地与实施阶段,跨过概念,,进入实践,空间,迅猛发展,2011,:新兴技术,2014,:跨越炒作顶峰,2015,:跨越裂谷,走向成熟,expectations,Activity Streams,Wireless Power,Group Buying,Social Analytics,Gamification,3D Printing,Image Recognition,Context-Enriched Services,Speech-to-Speech Translation,Internet of Things,Natural Language Question Answering,Big Data and Extreme Information,Processing and Management,Video Analytics for Customer Service,Computer-Brain Interface,Quantum Computing,Human Augmentation,3D Bioprinting,Social TV,Internet TV,NFC Payment,Private Cloud Computing,Augmented Reality,Cloud Computing,Media Tablet,Virtual Assistants,In-Memory Database Management Systems,Gesture Recognition,Machine-to-Machine Communication Services,Mesh Networks:Sensor,Technology Trigger,Hosted Virtual Desktops,Virtual Worlds,E-Book Readers,Consumerization,QR/Color Code,Idea Management,Biometric Authentication Methods,Mobile Application Stores,Predictive Analytics,Speech Recognition,Location-Aware Applications,As of July 2011,Peak of Inflated Expectations,Trough of Disillusionment,Slope of Enlightenment,Plateau of Productivity,time,Mobile Robots,Years to mainstream adoption:,less than 2 years,2 to 5 years,5 to 10 years,more than 10 years,obsolete,before plateau,50%,的企业已经投资和使用大数据,,33%,的企业正在规划如何利用大数据,我们看到大数据领域的持续投资,大数据即将步入成熟发展阶段,大数据趋势:跨越裂谷,走向成熟,进入落地与实施阶段跨过概念,,大数据已经在领先企业获得落地,并产生效果,互联网,金融,运营商,零售,Telefonica,用户位置信息,Verizon,用户消费习惯,VISA,信用卡可疑交易,招商银行业务创新,Google,大脑,百度智能大脑,沃尔玛用户个性化体验,Target,用户消费习惯分析,大数据已经在领先企业获得落地,并产生效果互联网金融运营商零售,课程大纲,4,大数据应用场景及成功案例,1,大数据发展背景,2,大数据起源及发展趋势,5,大数据配置报价指南,6,如何获取资源,3,FusionInsight,大数据解决方案介绍,课程大纲4大数据应用场景及成功案例1大数据发展背景2大数据起,什么是大数据,维基百科:“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合”,IDC,:一般会涉及,2,种以上数据形式,数据量,100T,以上,且是高速、实时数据流;或者从小数据开始,但数据每年增长,60%,Gartner,:大数据的四个,V,:,Volume,、,Variety,、,Velocity,、,Value,Volume,:数据量巨大,Velocity,:分析处理速度快,Variety,:种类和来源多样化,集中储存,/,集中计算已经无法处理巨大的数据量,日志,/,图片,/,视频,/,文档,/,地理位置,海量数据的及时有效分析,Value,:价值密度低,商业价值高,大量的不相关信息的进行复杂深度分析,深挖价值,精准营销深入洞察,统一监控分析,另外,IBM,有大数据,5V,特征定义,增加了一个,Veracity,(真实性),什么是大数据维基百科:“大数据是指无法在一定时间内用常规软件,全球每秒钟发送,2.9,百万,封,电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读,5.5,年,每天会有,2.88,万,个小时,的视频上传到,Youtube,,足够一个人昼夜不息的观看,3.3,年,推特上每天发布,5,千万,条,消息,假设,10,秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览,16,年,每天亚马逊上将产生,6.3,百万,笔,订单,每个月网民在,Facebook,上要花费,7,千亿,分钟,,被移动互联网使用者发送和接收的数据高达,1.3EB,Google,上每天需要处理,24PB,的数据,在,web 2.0,的时代,人们从信息的被动接受者变成了主动创造者,海量数据从哪里来人,全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,足,海量数据从哪里来机器,Boeing,:飞机每个引擎,3,分钟,产生,1TB,数据,波音,787,6,小时,飞行产生,240TB,数据,CERN,:,LHC,对撞产生,1PB/s,的数据,SKA,:,2015,年存储需要,1EB,云,化,IDC,建设,催生了数,据大,集中,Facebook,:每天产生,50TB,的日志数据,衍生分析数据超过,100TB,“机器制造”和“人工制造”共同贡献了海量数据,集中式的数据中,心建,设加速数据集中,海量数据从哪里来机器Boeing:飞机每个引擎3分钟产生1,为什么大数据技术会出现,海量数据的高存储成本,大数据量下的数据处理性能不足,流式数据处理缺失,有限的扩展能力,单一数据源,数据资产对外增值,数据扩展性需求和硬件性能之间存在差距,新的业务需求,需要新的大数据处理平台,为什么大数据技术会出现海量数据的高存储成本数据扩展性需求和硬,为什么传统数据库不能解决大数据的问题,数据量大,数据种类多,结构化数据 (传统数据库),VS,结构化数据、非结构化数据、半结构化数据(大数据),TB,级(传统数据库),VS,PB,级(大数据),为什么传统数据库不能解决大数据的问题数据量大数据种类多结构化,揭开,Hadoop,神秘的面纱,Hadoop,是,Apache,基金会的一个项目总称,主要由,HDFS,、,MapReduce,和,HBase,等组成。,HDFS,是对,Google GFS,的开源实现,,MapReduce,是对,Google MapReduce,的开源实现,,HBase,是,Google BigTable,的开源实现。,Hadoop,来源于其创始人,Doug Cutting,的儿子给一头黄色大象取的名字。,Hadoop,最初只与网页索引有关,迅速发展成为分析大数据的领先平台。,揭开Hadoop神秘的面纱Hadoop是Apache基金会的,Hadoop,框架及应用堆栈,HDFS,分布式文件系统,Hadoop,框架,HCatalog,元数据管理,HBase,分布式列数据库,Hive,SQL,查询语言,Pig,流数据处理语言,MapReduce,分布式数据处理框架,协调服务,分布式锁,ZooKeepere,Hadoop Common,分布式文件系统和通用,I/O,的组件与接口,数据源,数据仓库,日志文件,媒体文件,RSS,分布式数据存储,HDFS,分布式数据处理,数据应用,Queries,Analytics,Search,Datameer,Sqoop,、,Flume,、,Hadoop,应用堆栈,HBase,MapReduce,Hive,Hadoop 框架及应用堆栈HDFS Hadoop 框架HC,HDFS,原理简介,字典,文件系统,部首检字表,(一)部首目录,(二)检字表,(三)难检字笔画索引,文件名,元数据(,Metadata,),字典正文,数据块(,Block,),Hadoop Distributed File System,,简称,HDFS,,是一个分布式文件系统。,HDFS,的核心理念是分而治之,即:将大的数据分成很多小块进行存储和分析。,它提供高吞吐量来访问应用程序的数据,适合有着超大数据集的应用程序。,HDFS原理简介字典文件系统部首检字表文件名字典正文数据块(,MapReduce,原理简介,MapReduce,基于,Google,发布的分布式计算框架,MapReduce,论文设计开发,用于大规模数据集(大于,1TB,)的并行运算,VS,机关,PipeLine,管理人员,办事处,PipeLine,管理接口,办事处产品经理,办事处产品经理,。,Map,Reduce,MapReduce原理简介MapReduce基于Google,Spark,原理简介,Spark,是,UC Berkeley AMP,实验室基于,map reduce,算法实现的分布式计算框架,,输出和结果保存在内存中,,不需要频繁读写,HDFS,,数据处理效率更高,Spark,适用于,近线或准实时、数据挖掘,与,机器学习,应用场景,MR,:,两步计算,磁盘存储,Spark,:多步计算,内存存储,VS,Spark原理简介Spark是UC Berkeley AMP,互联网大数据技术演进:从查询、分析到智能,GFS,(分布式文件系统),MapReduce,分布式并行计算,Bigtable,分布式,NoSQL,Sawzall,高阶语言,Chubby,(分布式协同),Search,Page Indexing,分布式存储,+,查询,+,批处理,交互式分析,+,增量刷新,+,图计算,MapReduce,批处理框架,Bigtable,分布式,NoSQL,Sawzall,高阶语言,Search,Page Indexing,Percolator,增量框架,Pregel,图计算框架,Google+,BI/Analytics,Dremel,交互式分析,智能分析,+,云服务,Pipeline,计算,Flume,Spanner,批量和流式计算融合云服务,Cloud DataFlow,流计算,MillWheel,分析云服务,Prediction API,(推荐、分类、预测等),Google Brain,(深度学习,DNN,,语音识别、图像识别等),网页搜索应用,驱动,Google,建立低成本高扩展文件系统、支持,K/V,网页数据的查询、,批处理,构建索引,社交网络数据搜索应用,驱动,Google,建立增量查询框架、社交图谱分析和交互式分析技术,智能搜索应用,驱动,Google,建立以,Google,大脑为代表的,智能实时分析技术,Google,大数据架构,1.0,Web,应用时代,(2003),Google,大数据架构,2.0,社交网络时代,(2010),Google,大数据架构,3.0,智能大脑时代,互联网大数据技术演进:从查询、分析到智能GFS(分布式文件系,企业大数据应用演进:数据成为企业的核心资产,推动商业创新,业务价值,信息应用成熟度,信息支撑业务,以降低成本为目的,数据管理改造,离线分析,关注查询和报表,信息管理企业,关注数据的多样化和实时性,提供各种分析,实时分析,数据挖掘,数据安全,信息指导决策,运营数据,数据即服务,分析即服务,开放数据,信息促进创新,认知计算,深度计算,大数据,IT,基础设施(,hadoop,)建设,简单应用(如详单云存储及查询;专题分析),;,开始启动大数据咨询。,大数据平台,跨域数据整合及分析;,接入多种数据源,内部,/,外部等,;,各种应用场景(单域、跨域,数据对外开放),;,构建实时分析应用,及时响应业务,开始数据挖掘等高级数据分析。,对外数据开放,提供数据服务。大数据和云相结合,;,支持灵活开发各种应用,注重隐私保护;,企业决策数据化,跨行业,跨领域数据挖掘的深度集成。,构建企业数字中枢;,决策和运维智能化;,信息交易和共享。,金融企业正从第一阶段进入第二阶段,领先的电信运营商正从第二阶段进入第三阶段,互联网公司正在开展,企业大数据应用演进:数据成为企业的核心资产,推动商业创新业务,传统企业对数据平台的诉求向互联网靠齐,在大数据和移动互联网时代,传统企业在数据规模和访问量的快速增长,使得技术选择上,向互联网公司靠齐,数据负载特征,Google,+,数据规模,数据模型,访问量,复杂度,数据量,并发,量,China Mobile BOSS System,Taobao Trade,twitter,facebook,CRM,Eventual,Core Banking System,ACID,IOT,eBay Trade,电子商务,搜索,,社交,交易密集负载,T,ravel Sky Ticket Booking,ERP,传统企业应用,ERP/CRM/SCM,SCM,ICBC Transactional & Archival Imaging,数据量增加,访问量增加,传统数据平台,大数据平台,传统企业对数据平台的诉求向互联网靠齐在大数据和移动互联网时代,数据处理技术分布式演进趋势:,Hadoop,成为开放的事实标准,SMP,Hadoop,特点:,Share Everything,结构化、关系型,Flash Cache+,分布式块存储,+IB,SMP+MPP,混合,MPP,特点:,Share Nothing,开放,、全球生态,结构化、半结构化、非结构化,高性能、实时,特点:,Share Nothing,结构化、关系型,通用的硬件,特点:单机、,Scale up,性能存在瓶颈,扩展性差,数据处理技术分布式演进趋势:Hadoop成为开放的事实标准S,内存计算兴起,,Hadoop,生态系统持续壮大,实时化:内存计算兴起,Hadoop,生态系统持续扩大,AMPlab,开发的,Spark,,提供迭代式内存计算模型,非常适合用于数据挖掘算法的并行化,预计,Spark,将成为编写和分享数据挖掘算法的标准平台,Spark,目前已经成为,Apache,顶级项目,Hadoop 2.0,发布支持多种计算模型调度的,Yarn,,实现多种计算模型在同一个集群中并存,将帮助,Hadoop,进一步巩固大数据生态圈。,HDFS,和,Yarn,成为,Hadoop,核心平台性组建,不断吸收更多组建集成到,Hadoop,。,Hadoop,HDFS,Storm,MapReduce,Pig,Hive,YARN/Zookeeper,Spark,HBase,Flume,Sqoop,Integration,Batch Processing,Interactive,Analytics,Search,Machine Learning,Complex Event Process,3,rd,Party or customized wordload,Impala,Solr,MLLIB,融入,内存计算兴起,Hadoop生态系统持续壮大实时化:内存计算兴,课程大纲,4,大数据应用场景及成功案例,1,大数据发展背景,2,大数据起源及发展趋势,5,大数据配置报价指南,6,如何获取资源,3,FusionInsight,大数据解决方案介绍,课程大纲4大数据应用场景及成功案例1大数据发展背景2大数据起,2007,2011,2013,持 续 优 化,并 回 馈 社 区,性 能 导 向 配 套 电 信,可 靠 安 全 自 管 理,企业 发 行 版,开源跟踪研究类,组件配套,GalaX HD,独立发布,FusionInsight,FusionInsight,由来,200720112013持 续 优 化 并,开源到企业级的蜕变,,,Hadoop,社区贡献全球第四,安全,版本配合,配置,Hadoop,HBase,日志,性能调优,基线,选择,补丁选择,采纳社区精华,去除开源,Bug,:,谨慎选择稳定基线版本;,认真评估高版本补丁影响范围评估,和回合策略;,采用数万个测试用例,确保企业版本稳定性,年份,提交,解决,2012,178,141,2013,277,241,2014,339,296,团队社区问题,/,补丁贡献,2015,年,Hadoop,OS,社区贡献最新统计,全球第三,亚洲第一,开源到企业级的蜕变,Hadoop社区贡献全球第四安全版本配合,强大内核开发团体提供企业级的开源支撑能力,会使用,Hadoop,会定位周边问题,会定位内核级问题(拔尖的个人),定位内核级问题的团队(依赖团队而不是精英个人),能够独立完成支撑关键业务特性的内核级开发,能够带领社区,引领社区完成面向未来的内核级特性开发,能够创建新的社区顶级项目,并且得到生态系统认可,强大的,Hadoop,内核团队支持的开发与产品交付能力,,企业,级运营支撑能力,Apache,开源社区生态系统,组件多,代码量大,组件更新块,特性无有效整合,积极参与,spark,社区贡献,主导,Spark SQL,升级支持,hive 0.13,,其中合入社区,patch 150+,,公司贡献在社区,排名第三,。,强大内核开发团体提供企业级的开源支撑能力会使用会定位周边问题,西安研究所:,Hadoop,产品化,ELK/MPP DB,深,圳研发基地,/,香港:,大数据洞察平台,大数据解决方案,数据挖掘算法,印度研究所,:,Hadoop,数据可视化,MOLAP,美研所:,Spark,ELK/MPP,DB,大数据系统加速,欧,研所:,分布式内存,DB,分布式计算算法,杭,州研究所:,HadoopSpark,流计算,加,研所:,Yarn/,大规模调度,硬件加速,金融大数据分析,全球布局、全面覆盖大数据领域关键技术,大数据是公司未来投入四大战略方向之一,未来将保持上千人规模重点投入,西安研究所:深圳研发基地/香港:印度研究所:美研所:欧研所:,27,大数据应用挑战,Hadoop,开放、统一数据处理,混合负载,稳定、可靠、安全,高效、高可扩展,快速上线:易安装部署,升级和配置,低维护成本:可靠、安全、问题快速定位,主动运维:主动进行健康,/,风险,/,效率监控分析,运维工程师,开发工程师,快速上手、高效开发,典型场景最好免代码开发,无缝集成到已有系统和支撑移动互联网应用环境,数据集成工程师,快速加载,数据加载速度始终是瓶颈,数据整理复杂,工作量占大数据项目的,70,如何管理数据资产和质量,传统分析方法面临大数据的挑战,海量数据分析的及时性、效率和实时应用,当前技能要求搞,需要业务驱动的一站式甚至,one-Click,的闭环解决方案,数据分析师,大数据应用挑战Hadoop开放、统一数据处理,混合负载快速上,FusionInsight,产品定位,:,企业级大数据处理、分析挖掘平台,运营商,金融,政府,FusionInsight,大数据平台,数据服务,离,/,近线计算,内存计算,并行数据库,MPPDB,实时流计算,征信,推荐,明细(影像),伪控,数据采集,数据集成,数据探索分析,结果呈现,数据分析,敏捷,完全开放的架构,性能线性扩展,丰富的工具支持,开发运维高效,强大的,SQL,能力,业务移植便捷,智慧,全量建模,深刻洞察,自研算法,高效精准,可信,全组件,HA,、异地容灾、金融等保,开放共赢,可信赖的合作伙伴,FusionInsight产品定位: 企业级大数据处理、分析,围绕大数据全生命周期构建能力,让数据活起来,数据洞察,数据处理,数据存储,数据收集,存储和计算全融合架构,采纳社区精华做企业增强,HBase,二级索引,HDFS,、,MR,性能提升,5,倍,SQL on Hadoop,搜索引擎,分析挖掘的使能框架,特征管理,模型管理,Spark,、,MLLib,内存迭代性能提升,10,倍以上,文本挖掘、交互式探索,实时流,Storm,生命周期管理,服务治理框架,应用解耦,分布式、实时、多协议,文本搜索,Miner,Farmer,大数据存储,Hadoop,数据服务,Porter,围绕大数据全生命周期构建能力,让数据活起来数据洞察数据处理数,HIVE/Impala,HDFS/HBase,M/R,Spark,Porter,Miner,DataFarm,Hadoop,Storm,Solr,系统管理,Farmer,服务治理,Manager,Hadoop API,Plugin API,OpenAPI/SDK,应用服务层,REST/SNMP/Syslog,Data,Information,Knowledge,wisdom,Yarn/ Zookeeper,FusionInsight,架构,概述,安全管理,MPP DB,FusionInsight,的,Hadoop,层提供大数据处理环境,基于社区开源软件增强,按照场景选择业界最佳实践,FusionInsight,的,DataFarm,层提供支撑端到端数据洞察,构建数据到信息到知识到智慧的数据供应链, 其中包括相对独立的数据集成服务,Porter,,数据挖掘服务,Miner,和数据服务框架,Farmer,FusionInsight Manager,是一个分布式系统管理框架,管理员可以从单一接入点操控分布式集群,包括系统管理(,OM/NTP/,灾备)、数据安全管理和数据治理,HIVE/ImpalaHDFS/HBaseM/RSparkP,为行业业务负载优化的统一大数据处理平台,FusionInsight,用,100,开源的核心支持混合负载,从批量、交互查询、数据挖掘,到实时流和查询等各种场景,开放式存储格式(,Rcfile/ORCfile/Parquet,),以避免锁定私有文件格式,所有的组件都通过,Manager,提供的插件框架来按需安装,开源,轻度增强,开源,深度增强,开源,孵化特性,自研,DSL,IDE,分布式计算框架,HDFS/HBase,Storm,MapReduce/Tez,Hive,YARN/Zookeeper,Spark,Flume,Sqoop,Integration,Batch Processing,Interactive,Query,Search,Machine Learning,Event,StreamProcess,Solr,MLLIB,分布式存储,StreamingCalculation,基础设施,Standard Server,IMC Server,Storage Server,Pluggable Accelerator,Network,Online Query,SparkStreaming,CQL,Phoenix,Elk,HiGraph,CTBase,MPP DB,为行业业务负载优化的统一大数据处理平台FusionInsig,电信级可靠性,-,系统可靠性,系统可靠性:,业务无单点:,OMS,,,HDFS,,,HBASE,,,YARN,,,HIVE,,,OOZIE,,,HUE,,,ZOOKEEPER,,,BOOKEEPER,采用主备,负荷分担方式实现服务无单点故障,管理节点,HA,:,OMS,节点及所有业务组件中心管理节点实现,HA,跨,DC,容灾,/,备份:,HBase,集群通过,HLOG,准实时复制,,HDFS/Hive,集群通过,BackupAdmin,异步复制实现跨数据中心灾备,第三方备份系统集成,:,数据可以灵活的备份在外部系统如,NAS,、磁带库,只是和,NBU,等备份软件集成,1,1,1,1,1,1,2,2,3,3,1,3,4,4,电信级可靠性-系统可靠性系统可靠性:111111223313,电信级可靠性,-,数据可靠性,数据可靠性:,OS,层可靠性加固,:,RAID/OS,写缓存保护实现掉电数据保护,Raid,策略,:,OS,,,OMS,,,NameNode,,,ZK,及,HDFS,数据节点采用不同硬盘分区及,Raid,策略,兼顾性能情况下保证数据可靠性,快速故障检测,:,结合存储产品经验,尽快发现故障硬盘,降低,MTTR,,提高数据可靠性,硬盘热插拔,:,支持在线集群硬盘更换不影响业务,降低,MTTR.,第三方备份系统集成,:,数据可以灵活的备份在外部系统如,NAS,、磁带库,只是和,NBU,等备份软件集成,跨数据中心数据备份:,HBase,集群通过,HLOG,准实时复制,,HDFS/Hive,集群通过,BackupAdmin,异步复制实现跨数据中心灾备,3,3,3,4,6,5,7,8,6,6,5,8,4,7,电信级可靠性-数据可靠性数据可靠性:333465786658,故障,无故障检测机制,,MTTR,无保障,掉电,应用缓存、,OS,缓存、,RAID,卡缓存、硬盘缓存中的脏数据可能丢失。,集群重启导致,业务数据丢失,,系统不能启动,坏盘,硬盘故障是常态:,1PB,数据,1200,块硬盘,每,10,天约有,1,块硬盘损坏(年故障率按,3%,),节点退服,-,换硬盘,-,启动,单次换盘操作,20,分钟,同时引发大量无效数据副本重建。,掉电保护:,对数据写入全路径进行优化,确保,系统异常掉电后,业务仍能可靠地启动,;,有效保护业务组件的基本运行环境、程序文件、配置文件、元数据、事务日志、安全账户信息。,故障检测:,系统实时监控硬件、,OS,和业务进程的健康状态,缩短,MTTR,。,系统数据持久度达,99.999%,:,1PB,数据(,3,副本,,1200,块,4TB,硬盘,硬盘年故障率,3%),双容灾集群的数据持久度更高(,7,个,9,)。,在线换盘:,无需人工操作,热替换故障硬盘,,单次换盘操作, 40x,14000 Dimensions,FusionInsight Miner:基于分布式内存计算的,FusionInsight Farmer,:,大数据应用使能器,Server or VM,PaaS,BLU1,Farmer SDK,Deploy on,Deploy on,Access Load Ba