单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2020/1/13,#,大数据介绍,1,大数据介绍1,目录,大数据的概念,大数据与传统数据的区别?,大数据的典型特征(,3V,),广义的大数据,大数据应用案例,2,目录大数据的概念2,大数据的概念,大数据,(Big Data),是指无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合,简单一点的说,就是用现有一般技术难以管理的数据,。,3,大数据的概念大数据(Big Data)是指无法用现有的软件工,大数据与传统数据的区别?,小明去了一百次书店,传统数据:要回答的问题是他第一百零一次买不买书,即业绩和经营指标的问题;,大数据:要回答的是他第一百零一次买什么书,需要将什么样的内容推荐给他。,群体和个体的区别,传统定义上,更多关注的是一类人群,用同一类规则制订套餐给他们;,互联网时代,要把每个人都精准刻画出来,进行精准匹配。,4,大数据与传统数据的区别?小明去了一百次书店4,大数据的典型特征(,3V,),Volume,(容量),现在基本上是指从几十,TB,到几,PB,这样的数量级,未来,可能只有几,EB,数量级的数据量才能称得上是大数据了。,(1T=1024G,1P=1024T),Variety,(多样性),结构化和非结构化数据,Velocity,(速度),数据产生和更新的频率,5,大数据的典型特征(3V)Volume(容量)5,广义的大数据,所谓大数据,是一个综合性概念,它包括:,(,1,)因具备,3V,特征而难以进行管理的数据,(,2,)对这些数据进行存储、处理、分析的技术,(,3,)以及能够通过分析这些数据获得实用意义和观点的人才和组织,6,广义的大数据所谓大数据,是一个综合性概念,它包括:6,大数据的应用案例,7,大数据的应用案例7,穿孔卡片与美国人口普查,美国在,1880,年进行的人口普查,耗时,8,年才完成数据汇总。因此,他们获得的很多数据都是过时的。,1890,年进行的人口普查,预计要花费,13,年的时间来汇总数据。,后来,美国人口普查局通过用赫尔曼,-,霍尔瑞斯发明的穿孔卡片制表机来进行,1890,年的人口普查,耗时一年。,8,穿孔卡片与美国人口普查美国在1880年进行的人口普查,耗时8,麻省理工与通货紧缩预测软件,美国劳工统计局的人员每个月都要公布消费物价指数(,CPI,),这是用来测试通货膨胀率的。,政府通过人工采集价格信息数据每年大概需要花费两亿五千万美元。这些数据是精确的也是有序的,但是数据往往会有几周的滞后。,麻省理工学院(,MIT,)的两位经济学家,通过一个软件在互联网上每天可以收集到,50,万种商品的价格,他们能比官方数据提前发现通货紧缩趋势。,9,麻省理工与通货紧缩预测软件美国劳工统计局的人员每个月都要公布,沃尔玛,,请把蛋挞与飓风用品摆在一起,通过对历史交易记录这个庞大数据库进行观察,沃尔玛注意到,每当季节性飓风来临之前,不仅手电筒销量增加,而且美式早餐含糖零食蛋挞销量也增加了。,因此每当季节性飓风来临时,沃尔玛就会把蛋挞与飓风用品摆放在一起,从而增加销量。,10,沃尔玛,请把蛋挞与飓风用品摆在一起通过对历史交易记录这个庞大,沃尔玛:东海岸,中海岸,西海岸,在美国,东海岸、中海岸、西海岸之间有两小时时差。,东海岸的沃尔玛营业两小时后之后,中海岸才开始营业,沃尔玛就会把东海岸当天这两小时的营业情况、相关数据传给中海岸。,中海岸就会根据这个数据知道了这天人们的购物喜好,决定货品怎么摆放,哪些货物摆放在一起会比较好。,这种方式给沃尔玛带来了很大的利润。,11,沃尔玛:东海岸中海岸西海岸在美国,东海岸、中海岸、西,美国折扣零售商塔吉特与怀孕预测,塔吉特公司,能,在不被清楚告知的情况下预测出一个女性的怀孕情况,该公司找出了大概,20,多种与怀孕的关联物,给顾客进行“怀孕趋势”评分,这些数据甚至使得零售商能够比较准确地预测预产期,这样就能够在孕期的每个阶段给客户寄送相应的优惠券,12,美国折扣零售商塔吉特与怀孕预测塔吉特公司能在不被清楚告知的情,Hitwise,,通过流量判断消费者喜好,数据创新再利用的一个典型例子是搜索关键词。,消费者和搜索引擎之间的瞬时交互形成了一个网站和广告的列表,实现了那一刻的特定功能。这些信息除了实现基本用途之外,它还可以变得非常有价值。,如数据代理益百利旗下的网页流量测量公司,Hitwise,,让客户采集搜索流量来揭示消费者的喜好。,13,Hitwise,通过流量判断消费者喜好数据创新再利用的一个典,物联网,物联网(,Internet of Things,,缩写,IOT,)是一个基于互联网、传统电信网等信息承载体,让所有能够被独立寻址的普通物理对象实现互联互通的网络。,在物联网上,每个人都可以应用电子标签将真实的物体上网联结,在物联网上都可以查找出它们的具体位置。,通过物联网可以用中心计算机对机器、设备、人员进行集中管理、控制,也可以对家庭设备、汽车进行遥控,以及搜寻位置、防止物品被盗等各种应用。,14,物联网物联网(Internet of Things,缩写IO,RFID,技术,RFID,是,Radio Frequency Identification,的缩写,即射频识别,俗称电子标签。,RFID,是一种简单的无线系统,由一个询问器,(,或阅读器,),和很多应答器,(,或标签,),组成。该系统用于控制、检测和跟踪物体。,RFID,技术在超市和图书馆中的应用,15,RFID技术RFID是Radio Frequency Ide,车联网,未来车联网技术将重新定义汽车,DNA,。借助无线通讯,城市内车与车之间,车与建筑之间,车与人之间都将建立更加智能紧密的互联。,通过装载在车辆上的电子标签利用无线射频等识别技术,实现在信息网络平台上对所有车辆的属性信息和静、动态信息进行提取和有效利用,并根据不同的功能需求对所有车辆的运行状态进行有效的监管和提供综合服务。,16,车联网未来车联网技术将重新定义汽车DNA。借助无线通讯,城市,无人驾驶,无人驾驶被人认为是车联网的终极目标,无人驾驶车依赖的技术很多,比如导航、雷达、庞大数据计算等,要实现这些技术需要和物联网紧密结合起来。,无人驾驶是通过车载传感系统感知道路环境,自动规划行车路线并控制车辆到达预定目标的智能汽车。,17,无人驾驶无人驾驶被人认为是车联网的终极目标17,自动泊车系统,自动泊车系统,顾名思义驾驶者双手可以离开方向盘,在车辆停好之前要做的只是等待。,自动泊车系统主要由两部分组成:控制单元和位于前后保险杠以及两侧的超声波雷达探头。,按动自动泊车辅助系统激活按钮之后,雷达探头可在车辆行驶时对车辆两侧进行扫描。,控制单元对雷达反馈的信息进行分析,从而估算出车位是否足以容纳车辆停放。,自动泊车系统随后将通过助力转向系统对车辆行驶方向进行干预,并以控制单元规划好的路径将车辆停入车位。,18,自动泊车系统自动泊车系统,顾名思义驾驶者双手可以离开方向盘,,日本先进工业技术研究院的坐姿研究与汽车防盗系统,该研究所教授把每个驾车者的坐姿量化为精确的数据,使其对司机识别的正确率高达,98%,。,这项技术作为汽车防盗系统,一旦识别驾车者不是车主,就会自动熄火。,这一技术还可汇集事故发生前驾车者的姿势变化数据,分析坐姿与行驶安全的关系,在司机疲劳驾驶时发出警示或自动刹车。,19,日本先进工业技术研究院的坐姿研究与汽车防盗系统该研究所教授把,UPS,快递,大数据技术下的最佳行车路径,UPS,快递多效地利用了地理定位数据。为了使总部能在车辆出现晚点的时候跟踪到车辆的位置和预防引擎故障,它的货车上装有传感器、无线适配器和,GPS,。同时,这些设备也方便了公司监督管理员工并优化行车线路。,UPS,为货车定制的最佳行车路径是根据过去的行车经验总结而来的。,2011,年,,UPS,的驾驶员少跑了近,4828,万公里的路程,节省了,300,万加仑的燃料并且减少了,3,万公吨的二氧化碳排放量。,20,UPS快递大数据技术下的最佳行车路径UPS快递多效地利,UPS,与汽车修理预测,UPS,国际快递公司从,2000,年就开始使用预测性分析来监测自己全美,60000,辆车规模的车队,这样就能及时地进行防御性的修理。,通过监测车辆的各个部位,,UPS,只需要更换需要更换的零件,从而节省了好几百万美元。,21,UPS与汽车修理预测UPS国际快递公司从2000年就开始使用,谷歌与甲型,H1N1,流感,2009,年出现的甲型,H1N1,流感,,当时还没有研发出对抗这种新型流感病毒的疫苗,公共卫生专家能做的只是减慢它传播的速度。但要做到这一点,他们必须先知道这种流感出现在哪里。,疾控中心得到流感方面的信息往往会有一两周的滞后,这种滞后导致公共卫生机构在疫情爆发的关键时期反而无所适从。,谷歌通过观察人们在网上的搜索记录来预测流感的传播,得到的信息是非常准确和及时的。,22,谷歌与甲型H1N1流感2009年出现的甲型H1N1流感,当时,“量化自我”,通过一种非干预的手段,把一些所谓的医疗传感器放到我们的身边,比如我们戴一个腕表、一枚戒指、一个耳塞、一副眼镜等,通过这些设备我们可以了解自己的心跳、血压情况,甚至包括我们体表的健康状况,从而对一些大病(如癫痫等)进行早期预测。,美国,Fitbit,公司近期就推出了一款免费的苹果手机应用,用户可用于记录食物和液体摄入量,从而跟踪其活动水平和营养摄入情况,通过分析这些数据可以很好的控制体重。,23,“量化自我”通过一种非干预的手段,把一些所谓的医疗传感器放到,小儿床垫,通过床垫上的压力与湿度传感器分析,来判断小孩子有没有比较严重的打鼾或者睡姿不正确等问题。,24,小儿床垫通过床垫上的压力与湿度传感器分析,来判断小孩子有没有,在线教育,如著名的在线教育公司,Coursera,,已经和普林斯顿、伯克利、宾夕法尼亚大学等,30,多所大学合作,在互联网上免费开放大学课程,分布在世界各地的学习者不仅可以在同一时间实时听取同一位老师的授课,还和在校生一样,做同样的作业、接受同样的评分和考试。,在线教育是一个“行为评价和诱导”的智能平台,25,在线教育如著名的在线教育公司Coursera,已经和普林斯顿,在线教育服务,Knewton,在线教育服务,Knewton,是大数据应用于教育行业的典型,通过数据分析区分出每个学生的优缺点,从而给学生有效的指导。,美国最大的公立大学亚利桑那州公立大学曾运用这一系统来提高学生的数学水平,全校,2000,名学生使用该系统两学期之后,该大学的辍学率下降了,56%,,毕业率从,64%,升高到,75%,。,26,在线教育服务Knewton在线教育服务Knewton是大数据,购买飞机票,同一架飞机上的座位,票价却千差万别,个中原因,只有航空公司知道。,奥伦,-,埃齐奥尼开发了一个系统,用来推测当前网页上的机票价格是否合理,预测当前的机票价格在未来一段时间内会上涨还是下降,从而帮助乘客明智购票。,这个预测系统建立在,41,天内价格波动产生的,12000,个价格样本基础之上。,27,购买飞机票同一架飞机上的座位,票价却千差万别,个中原因,只有,航班延误之候机经济学,美国建立了一个统一的数据开放门户网站,Data.Gov,。,Data.Gov,上线以后,美国交通部开放了全美航班起飞、到达、延误的数据。,航班延误时间的分析系统(,Flyontime.us,):帮助消费者找到表现最佳,最符合自己需要的航班。,该系统向全社会免费开放,任何人都可以通过它查询分析全国各次航班的延误率及机场等候时间。,28,航班延误之候机经济学美国建立了一个统一的数据开放门户网站,The-N,与电影票房预测,The-N,在好莱坞电影上映之前,就能利用海量数据和特定算法预测出一部电影的票房。,该公司拥有一个包括了过去几十年美国所有商业电影大约,3000,万条记录的数据库;数据库里有所有关于预算、电影流派、拍摄、阵容、获得奖项和收入等数据。,29,The