,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2013/4/12,#,汪灏,2013.4.13,大数据介绍分享,汪灏 大数据介绍分享,1,什么是大数据?,什么是大数据?,2,大数据的,定义,Gartner,的定义:“大数据”,是需要,新,计算,模式才能处理的,具有,更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,。,大数据的,4V,特点,:,Volume,:数据规模,巨大(,TB-PB,量级,);,Velocity,:,数据产生速度快,数据响应处理速度快;,Variety,:数据形式多而杂乱。多渠道、多媒体、多用途;,Value,:数据价值分散。单体价值低,数据量越大,价值越明显。,大数据的定义Gartner的定义:“大数据”是需要新计算模式,3,数据的来源和去向,Analytical,Systems,Reporting,Systems,Business Intelligence,Corporate Performance Management,Data,Warehouse,Data Marts,Portal/Dashboard,建模,识别,置信,级联,监管,集成,同步,通知,共享,Federate,数据监管,安全,多源数据集,关联,匹配,合并,清洗,数据交换,平台,BI&Reporting,数据仓库,分析型,系统,操作型系统,智能设备,数据的来源和去向Analytical Reporting B,4,大数据兴起的原因,海量信息的出现,互联网的普及导致信息供应的社会化和即时化趋势,智能控制和联网设备的增加提供了大量的实时控制信息,多媒体技术的成熟导致信息形态的多元化呈现,相关技术的成熟到位,不断升级换代的网络技术保证了数据存取的响应速度,日趋低廉的存储成本为大数据的保存提供了可能,云计算等技术的出现极大提高了数据处理性能,快速获取信息的需求,个人和企业面对海量的数据面临选择困难,数据而非经验越来越成为决策的重要依据,信息获取的速度有时比质量更重要,供应,需求,能力,大数据兴起的原因海量信息的出现互联网的普及导致信息供应的社会,5,大数据的产业链,数据生产方,数据保有方,数据处理方,数据消费方,大数据的产业链数据生产方数据保有方数据处理方数据消费方,6,大,数据带来哪些变革?,大数据带来哪些变革?,7,思维变革,关注数据的全体,而不是样本,抽样样能节省分析时间,但也有无法预知的风险,技术进步使得基于全体的分析成为可能,关注数据的数量,而不是个体的质量,规模化的数据可以抵消单一数据的低质量问题,多来源、多媒体的数据提供了多样化的价值,数据,的非结构化,恰恰是其自然形态的表现,关注数据的量化关系,而不是逻辑关系,存在即合理。事实比推理分析和专家建议更可靠。,不是每一种关联性都能容易找到逻辑关系,“知其然,而不知其所以然,”,也能提供巨大的商业价值,思维变革关注数据的全体,而不是样本抽样样能节省分析时间,但也,8,技术变革,云计算:,把集中的运算分散开来,物联网:,把分散的设备连在一起,H,adoop,:把大数据切,成小模块,技术变革云计算:把集中的运算分散开来物联网:把分散的设备连在,9,大,数据带来的风险和挑战,数据隐私,谁有权使用我们的个人信息?电信?淘宝?,QQ,?,政府有权滥用个人信息吗?,Big data is big brother,?!,如何适当有效地披露公众信息?,数据安全,数据量大,黑客就不容易找到攻击,方向,了吗?,仅仅隐匿某些信息能够保证数据不被盗用吗?,一切都在网上,谁来监督数据安全公司?,数据暴力,洞悉过去就可以预知未来吗?,有意图就一定会去做吗?,客观数据能完全替代人的主观感受吗?,大数据带来的风险和挑战数据隐私,10,如何应用大数据?,如何应用大数据?,11,Market Basket Analysis,Support(A,B),=,transactions containing every item in A and B,all transactions,Support(C-A)=2/5=0.4,A,B,C,A,C,D,B,C,D,A,D,E,B,C,E,From BiMBA MIS Course PPT by Leida Chen,Market Basket AnalysisABCACDBC,12,推荐引擎示例,基于年龄和性别的推荐,基于内容的推荐,基于用户的协同过滤的推荐,基于项目的协同过滤推荐,推荐引擎示例基于年龄和性别的推荐基于内容的推荐基于用户的协同,13,京东,通过大,数据挖掘进行关联营销,购物篮,/,协同过滤算法,交叉购买规律,近邻聚类分析,/,预测模型,个性化购买规律,推荐页面区块的,A/B,测试,京东后台系统,(商品图片、,库存、价格、,促销信息),京东推荐系统,ACN Rules,JD Rules,跟踪指标,ADO,采用线上,A/B,测试的方式实际优化规则,项目,KPI:,推荐所带来的平均客单价提升,辅助,KPI:,推荐销售额,/,销售量的占比提升,推荐商品转化率提升,关联推荐是通过客户行为,分析算法导出推荐规则,在京东主商品页面进行实时的关联推荐,用以推动业务指标提升,通过一系列数据挖掘算法挖掘客户的购买规律,再将推荐规则输入至现有推荐系统,持续优化业务指标,数字营销,京东通过大数据挖掘进行关联营销购物篮/协同过滤算法 交叉,14,汉莎航空提供多个维度让客户选择和打分,基于客户偏好推荐,汉莎航空基于客户偏好推荐航班,汉莎航空提供多个维度让客户选择和打分基于客户偏好推荐汉莎航空,15,Netflix,在“纸牌屋”上的成功,基于,3300,万订阅,用户观看习惯的大数据分析,BBC,已获成功的热播题材,金牌导演,David Fincher,老戏骨主演,Kevin Spacey,Netflix在“纸牌屋”上的成功基于3300万订阅用户观看,16,大数据简介-ppt课件,17,