,#,2018,36,0,大数据中心平台演进与实践,2018360大数据中心平台演进与实践,1,目录,01,业务介绍,02,演进过程,03,实践案例,04,未来规划,目录01业务介绍02演进过程03实践案例04未来规划,2,业务介绍,最全,的,样,本,行,为,库,-,总日,志,数十万亿,条,-,每天,新,增,数百亿条,全球,域,名,信,息,库,-,数十亿,DNS,解析记录,-,每天约新增,上百万,条,-,13,年,+,Whois,信息存储,网址,库,每天查询,数百亿,条,每天处理,上百亿,条,每天拦截访问钓鱼数,超过,1.4,亿,URL,全球,文,件,样,本,库,-,每天新增,数百万样本,-,总样本数,上百亿,-,20,亿,+,黑名单,-,1,亿,+,白名单,数据来源:全,球,5.09,亿,PC,安,全,客,户,端,,,7.44,亿,移,动,端,安,全,客,户,端,;,360,浏,览,器,、,搜,索,终,端,应,等,数,据,来,源,:,互,联,网,基,础,设,施,DNS,,猎,网,、,补,天,等,各,类,举,报,与,响,应,平,台,,,以,及,100+,第,三,方,数,据源,大数据服务器,规,模,超,过,40000,台,,,总,存,储,数,据,量,接,近,1.6EB,,,每,天,新,增,超,过,1PB,每天各种数据,计,算,任,务,10,万个,,,每,天,处,理,数,据,量,10PB,漏洞 信息,社会 工程,钓鱼 网址,恶意 样本,互联网,痕迹大数据,攻击武,器大数据,主机 信息,移动 信息,主动 防御,网址 访问,域名 解析,业务介绍最全的样本行为库全球域名信息库网址库全球文件样本库数,资产,搜索,I,oT,个人 安全,视频 信息流,游戏,应用 产品,搜索,游戏,网址导航,手机助手,相机,清理大师,浏览器,分身大师,wifi,P,C,卫士,加固宝,手机卫士,网盾,360,O,S,花椒,信息流,奶糖,影视,基,本,属性,消费能力,上网行为,兴趣偏好,人流迁徙,统计分析,活跃产品,70+,表,1000+,字段,30000+,业务介绍,业务介绍,资产搜索IoT个人 安全游戏应用 产品搜索游戏网址导航手机助,4,业务介绍,01,02,03,数据加工处理,千亿级网页库数据 网页/链接,分析,热点数据获取、推荐,海量数据检索,全球最大病毒库 全球最大的安全漏洞,数据,产品数据分析,产品分析、统计报告,业务介绍010203数据加工处理海量数据检索产品数据分析,演进过程,统一的数据统计、报表,工,具,以产品为单位的数据处,理,工具,一站式的数据治理、加,工,及挖,掘,平台,演进过程统一的数据统计、报表工具以产品为单位的数据处理工具一,演进过程,第一个MR程序上线,2010,.,1,0,老版本数据处理程序全 面下线,2011,.,1,0,移动端,SDK,发布 报表工具发布,2015,.,0,6,数据处理平台发布,支持 离线处理、在线查询,2015,.,0,7,数据处理平台发布 实时计算功能,2016,.,0,6,大数据平台第一版发布,2017,.,1,2,发展里程碑,演进过程第一个MR程序上线2010.10老版本数据处理程序全,7,演进过程,QDAS+:,一站式的数据,治,理、,加,工及,挖,掘平台,基础平台,H,a,doop,P,a,a,S,C,a,che,应用平台,ES,S,p,a,rk,FLink,报表组件,任务调度,数据资产,数据存储,规则引擎,算子组件,数据采集,数据集成,MQ,MricoService,业务打点数据,接入数据,业务数据,实体数据,应用层数据,外部数据,权限管理,服务,产品,&,工具,数据采集服务,用户画像分析,数据展现服务,数据管理服务,任务调度服务,数据集成服务,O,L,A,P分析服务,数据分析服务,DAU,预测,Query,词,分类,用户画像,用户生命周期 管理,渠道优化,K,PI,异动分析,T,i,t,an,QR,e,po,rt,Q,N,ote,安全数据,数据查询服务,演进过程QDAS+:一站式的数据治理、加工及挖掘平台基础平台,演进过程,RDB,N,o,S,Q,L,L,o,g,Stre,a,m,TITA,N,数据接入,数据处理,QMi,ner,深度学习,算法模型,特征工程,模型评估,规则引擎,调度管理,服务化框架,QR,e,po,rt,自助分析,自助报表,QDAM,原始,明细,汇聚,应用,数数数,据据据,质安资,量全产,QP,ro,f,i,l,e,标签管理,模型管理,实体管理,Q,N,ote,在线查询,在线分析,QOPS,资服预,源务警,管监管,理控理,数据开放服务,基础平台,演进过程RDBNoSQLLogStreamTITAN数据接入,9,演进过程,用户画像,数据服务,数据平台,数据资产,全域产品数据分层、归,一,化,跨业务的数据价值评估,体,系,统一的数据标准和安全,体,系,统一的用户账号体系,自助式创建用户标签,跨引擎的计算平台,图元化的任务配置,多数据源任务处理,基于场景化的服务,主要改进点,演进过程用户画像数据服务数据平台数据资产全域产品数据分层、归,电脑软件,手机软件,视频,智能硬件,游戏,金融理财,数据关联度低:海量业务数据孤立存放,,,无统一,ID,体系,1,2,数据缺乏,维,护:,部分,数据含义,不,清晰,,命,名不规范,相同业务语义数据有多种表现形式,3,价值体现不足:本产品数据只在产品内,使,用,对于,维度缺失数据补齐难度较大,实践案例,数据治理,-,用户数据归一化,电脑软件手机软件视频智能硬件游戏金融理财数据关联度低:海量业,11,实践案例,S,tep,2,:,虚拟自然人维度建立,MID,M1,M2,M1,M2,QID,数据治,理,-,用户数据归一化,Step1:,业务行为数据关系提取,业务1业务2业务3,业务线,25+,表,600+,字段,20000+,数据模型整理,连通区域的id聚类,创建孤岛id关系对,虚拟自然人用户,ID,实践案例Step2:虚拟自然人维度建立MIDM1M2M1M2,实践案例,数据治理,-,用户数据归一化,实践案例,13,实践案例,数据处,理,-演进过程,S,t,a,ge,1:分布式数据处理工具,Stage2:,数据处理平台化,(Titan),从传统的数据处理到分布式数 据计算,从计算规则重复编写到规则模 板化,从单一的数据源到支持多种数 据源,支持多种计算引擎,从单一的数据输出到增加报表、查询等模块,系统功能按照模块化构建,单一计算引擎,模板库,自定义脚本,数据输出,报表,数据源,H,DFS,H,I,VE,MySQ,L,计算引擎,Sp,a,rk,MR,模板库,Sp,a,r,k,模板,MR,模板,Hi,v,e模板,自定义模板,报表,在线查询,经营分析,调 度,权 限,数据输出,N,o,w,:高性能、高可靠、低门槛,实践案例数据处理-演进过程Stage1:分布式数据处理工具S,1,数据源,类型,2,场景支持 度,3,资源管,控,4,使用门,槛,面临的问题,1,2,3,4,数据处理类型单一,场景模板无法自定义;,任务调度类型支持较少;,计算资源分配策略单一,资源利用率不高;,数据资源的管控粒度较粗,数据价值无法最大 化;,数据处理逻辑基于表单式配置,用户体验较差;,任务以列表方式展现,任务在可视化展现方面 较弱;,仅支持,HDFS,、,HIVE,、,MySQL,,支持类型少;,仅支持单一数据源接入;,实践案例,数据处,理,-问题和挑战,1234面临的问题1234数据处理类型单一,场景模板无法自定,15,实践案例,数据处,理,-系统架构,H,DFS,H,Ba,se,H,I,VE,Mo,ngo,D,B,K,af,ka,MySQ,L,QB,us,AP,I,S,p,a,rk,FLink,Y,ARN,Ru,n,time,组件库,规则引擎,模板库,/A,PI,图元接入,API接入,调 度 监 控,权 限 管 理,1,覆盖业界主流数据源类型,支持 混合数据源接入,2,计算逻辑和计算流程分离,支持 不同的场景,3,基于第三代计算引擎的分布式处,理,4,提供多种调度规则,支持不同类 型的任务,5,基于图元拖拽式的交互,任务配 置无码化,数据,计算,组件,应用,实践案例数据处理-系统架构HDFSHBaseHIVEMong,实践案例,总数据量,50+TB,日新增数据,8000+,日运行任务数,数据处理,-,当前现状,35+,5PB,接入业务线,200,并发任务数,实践案例总数据量50+TB日新增数据8000+日运行任务数数,实践案例,数据处,理,-任务管理,任务调试,场景优化,异常处理策略配置,默认值补齐,防数据倾斜,性能&可靠性,数据缓存,小文件合并,实践案例数据处理-任务管理任务调试异常处理策略配置默认值补齐,18,实践案例,在线查,询,-整体介绍,设计目标,一次性数据分析工具,数据集成和报表工具一,种,补充,主要特性,用户人群,功能定位,数据分析人员,具有一定数据分析能力,的,产品,人,员,支持多种数据源查询,查询语言统一化,结果集二次查询,多数据源混合查询,实践案例在线查询-整体介绍设计目标一次性数据分析工具主要特性,实践案例,在线查,询,-架构设计,多语言执行环境,节点管理,多语言执行平台,资源管理,会话管理,S,Q,L,解析,S,Q,L,解析引擎,适配器,元数据,查询服务,上 下 文,监 控,1,支持多种数据源的查询和数据源 的混合查询,2,查询统一,SQ,L,输入,屏蔽底层数 据源的类型,3,添加查询会话管理,查询资源统 一管控,4,查询结果的二次分析处理,实践案例在线查询-架构设计多语言执行环境节点管理多语言执行平,实践案例,100,GB,1,0,T,B,10min,1.,3h,在线查,询,-当前现状,查询性能提,升100%,20min,2.,5h,查询时,延90%,=2S,查询资源可重复使用,执行器水平扩展,资源申请,资源扩容,用户体验优化,批量执行,二,次,分析用户笔记,实践案例100GB10TB10min1.3h在线查询-当前现,21,实践案例,未来规划,数据处理生命周期的运维,基于产品场景的解决方案,实践案例未来规划数据处理生命周期的运维,2018,THANK,YOU,!,2018THANK YOU!,23,