,8/5/2018,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2018/8/5,#,企业实时大数,据系,统,介绍,技术创新,变革未来,企业实时大数据系统介绍技术创新,变革未来,1,目录,我们的实时数据平,台,-Prism,从这里开始,演进,集群规划,监控,规模,目录,2,Pris,m,是什么,宗旨,以,数据可视化,为出发点,以,降低,数据和数据分析软件获,取,成本,为己任,的,实时数据,平台,提供哪些服务,日志实时监控,-,ELK,数据总线,-,Kafka,数据实时分,析,-,Spark,Streaming/Storm/Flink,数据存储,-,Elasticsearch,as,a,Service,OLAP/,试验平台,-,Zeppelin+Spark/Flink,Prism是什么宗旨,3,Pris,m,数据流图,Prism数据流图,4,这里开始,这里开始,5,Dev,成为问题定,位,的,瓶,颈,Dev成为问题定位的瓶颈,6,ELK,ELK,7,ELK,ELK,8,大受欢迎,大受欢迎,9,部署方式和问题,部署方式,申请虚拟机,/,添加账号,使用,salt,部署,面临的问题,无法快速构建业务流,无法快速增减容量,部署方式和问题部署方式,10,怎么办?,怎么办?,11,我们的方案,我们的方案,12,解决了问题,快速增减容量,新工具快速支持,提高硬件资源利用率,降低数据软件的使用成本,解决了问题快速增减容量,13,角色,角色,14,Meso,s,管理的,资,源,Mesos管理的资源,15,Marathon,和,Spark,的,位,置,Marathon和Spark的位置,16,在,Meso,s,上运,行,无,状,态服务,在Mesos上运行无状态服务,17,宿主节点快照,宿主节点快照,18,找,到,Ki,b,a,n,a,网络方案,-net=host,Calico,CNI(Mesos version=,1.0),请求路由/服务发现,(HTTP),找到Kibana网络方案,19,多机房日志流汇聚,多机房日志流汇聚,20,日志平台接,入,Port,a,l,日志平台接入Portal,21,新需求,新需求,22,新的需求,实时推荐,多数据源实时JOIN,Logstash能力不足以支撑新的需求,新的需求实时推荐,23,引,入,Spark,on,Mesos,引入Spark on Mesos,24,Software on,Mesos,Software on Mesos,25,一个真实的业务场景,一个真实的业务场景,26,规模,实时日志分析:300模块,kafka峰值带宽6G,Spark,Streaming,任务:50个,Storm,集群:5个,Flink集群:2个,规模,27,集群规划,集群规划,28,宗旨,基础设施这一层技术收敛,Fail,Over,多租户资源隔离,宗旨,29,Qu,o,ta,Quota,30,Bootstrap,Version,3.0,Bootstrap Version 3.0,31,All in,Docker,All in Docker,32,监控,监控,33,监控,数据处理模块拓扑监控,业务统计监控,队列堆积:Kafka,Topic,Lag,流量,:Search,Count/Message,Count,错误,:Reject/Exception,基础监控/容量监控,IO,使用率,CPU,使用率,内存使用率,JVM/GC等,集群资源使用量,监控,34,数据处理模块拓扑,监,控,数据处理模块拓扑监控,35,实时流监控,实时流监控,36,Esaas,某,ES,集群监控,Esaas某ES集群监控,37,基础监控,基础监控,38,M,e,sos,资源统计,Mesos资源统计,39,广,告,pyadvisor,https:/ pyadvisorhttps:/,40,规模,计算集群,120+;,2600+,容器,ES,中存储的日志160T,4万,Shards,Esaas,50+;47,ES集群;,600+,容器,规模计算集群120+;2600+容器ES中存储的日志16,41,总结,我们做的事儿,实时数据治理,解决数据软件的部署的门槛,解决Mesos环境部署的门槛,仍存在的问题,负载不均匀,数据异常定位速度慢,下一步计划,解决以存在的问题,接入新的软件,GPU计算平台建设,总结仍存在的问题负载不均匀,42,