Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,中国科大,*,大数据的处理和分析,计算机科学导论第十讲,计算机科学技术学院,陈意云,0551-,6,3607043,课 程,内,内,容,容,课程内,容,容(本次,讲,讲座与,下,下述内,容,容关系,不,不大),围绕学,科,科理论,体,体系中,的,的模型,理,理论,程序理,论,论和计,算,算理论,1.,模型理,论,论关心,的,的问题,给定模,型,型,M,,哪些,问,问题可,以,以由模,型,型,M,解决;,如,如何比,较,较模型,的,的表达,能,能力,2.,程序理,论,论关心,的,的问题,给定模,型,型,M,,如何,用,用模型,M,解决问,题,题,包括程,序,序设计,范,范型、,程,程序设,计,计语言,、,、程序,设,设计、,形,形式语,义,义、类,型,型论、,程,程序验,证,证、程,序,序分析,等,等,3.,计算理,论,论关心,的,的问题,给定模,型,型,M,和一类,问,问题,解决该,类,类问题,需,需多少,资,资源,讲 座,提,提,纲,纲,大数据,的,的魅力,数据挖,掘,掘、大,数,数据、,大,大数据,案,案例、,大,大数据,的,的特点,大数据,时,时代的,思,思维变,革,革,样本和,全,全体、,精,精确性,和,和混杂,性,性、因,果,果关系,和,和相关,关,关系,大数据,的,的处理,几种主,要,要处理,方,方式、,MapReduce,编程模,型,型,大数据,的,分析,关键技,术,术概述,、,、,PageRank,初步,数据挖,掘,掘,数据挖,掘,掘的定,义,义,1.,从数据,中,中提取,出,出隐含,的,的过去,未,未知的,有,有价值,的,的潜,在信息,2.,从大量,数,数据或,者,者数据,库,库中提,取,取有用,信,信息的,科,科学,相关,概,概念,:,:知,识,识发,现,现,1.,数据,挖,挖掘,是,是知,识,识发,现,现过,程,程中,的,的一,步,步,2.,粗略,看,看:,数,数据,预,预处,理,理,数,据,据挖,掘,掘,数,数据,后,后处,理,理,预处,理,理,:,将未,加,加工,输,输入,数,数据,转,转换,为,为适,合,合处,理,理的,形,形式,后处,理,理,:,如可,视,视化,便于,从,从不,同,同视,角,角探,查,查挖,掘,掘结,果,果,大数,据,据的,魅,魅力,数据,挖,挖掘,典型,事,事例,:,:购,物,物篮,分,分析,顾客一次,购,购买,商,商品,1,面包,、,、黄,油,油、尿布、牛奶,2,咖啡,、,、糖,、,、小,甜,甜饼,、,、鲑,鱼,鱼,3,面包,、,、黄,油,油、,咖,咖啡,、,、尿布、牛奶、鸡,蛋,蛋,4,面包,、,、黄,油,油、,鲑,鲑鱼,、,、鸡,5,鸡蛋,、,、面,包,包、,黄,黄油,6,鲑鱼,、,、尿布、牛奶,7,面包,、,、茶,叶,叶、,糖,糖、,鸡,鸡蛋,8,咖啡,、,、糖,、,、鸡,、,、鸡,蛋,蛋,9,面包,、,、尿布、牛奶、盐,10,茶叶,、,、鸡,蛋,蛋、,小,小甜,饼,饼、尿布、牛奶,经关,联,联分,析,析,,可,可发,现,现顾,客,客经,常,常同,时,时购,买,买的,商,商品,:,:尿,布,布,牛奶,大数,据,据的,魅,魅力,大数,据,据,大数,据,据,,,或,称,海量,数,数据,,,指所,涉,涉及,的,的数,据,据量,规,规模,巨,巨大,到,到无,法,法通,过,过人,工,工,,在,在合,理,理时,间,间内,达,达到,截,截取,、,、管,理,理、,处,处理,、,、并,整,整理,成,成为,人,人类,所,所能,解,解读,的,的信,息,息,在总,数,数据,量,量相,同,同的,情,情况,下,下,,与,与个,别,别分,析,析独,立,立的,小,小型,数,数据,集,集相,比,比,,将,将各,个,个小,型,型数,据,据集,合,合并,后,后进,行,行分,析,析可,得,得出,许,许多,额,额外,的,的信,息,息和,数,数据,关,关系,性,性,,可,可用,来,来察,觉,觉商,业,业趋,势,势、,避,避免,疾,疾病,扩,扩散,、,、打,击,击犯,罪,罪,、,测定,实,实时,交,交通,路,路况,或,判定,研,研究,质,质量,等,等,这样,的,的用,途,途正,是,是大,型,型数,据,据集,盛,盛行,的,的原,因,因,数据,挖,挖掘,则是,探,探讨,用,用以,解,解析,大,大数,据,据的,方,方法,大数据的,魅,魅力,大数据案,例,例,谷歌预测,冬,冬季流感,的,的传播,2009,年出现了,一,一种称为,甲,甲型,H1N1,的新流感,病,病毒,在,短,短短几周,内,内迅速传,播,播开来,,全,全球的公,共,共卫生机,构,构都担心,一,一场致命,的,的流行病,即,即将来袭,美国也要,求,求医生在,发,发现甲型,H1N1,病例时告,知,知疾病控,制,制与预防,中,中心。但,人,人们从患,病,病到求医,会,会滞后,,信,信息传到,疾,疾控中心,也,也需要时,间,间,因此,通,通告新病,例,例往往有,一,一两周的,延,延迟。而,且,且疾控中,心,心每周只,进,进行一次,数,数据汇总,信息滞后,两,两周对一,种,种飞速传,播,播的疾病,是,是致命的,,,,它使得,公,公共卫生,机,机构在疫,情,情爆发的,关,关键时期,难,难以有效,发,发挥作用,大数据的,魅,魅力,大数据案,例,例,谷歌预测,冬,冬季流感,的,的传播,在这种流,感,感爆发的,几,几周前,,谷,谷歌的工,程,程师在,自然,杂志发表,引,引人注目,的,的论文,,令,令公共卫,生,生官员和,计,计算机科,学,学家感到,震,震惊,因为文章,不,不仅预测,了,了流感在,全,全美的传,播,播,而且,具,具体到特,定,定的地区,和,和州,谷歌是通,过,过观察人,们,们在网上,的,的搜索记,录,录来完成,这,这个预测,的,的,这种,方,方法以前,一,一直是被,忽,忽略的,谷歌保存,了,了多年来,所,所有的搜,索,索记录,每天有来,自,自全球,30,亿条搜索,指,指令,(,仅谷歌有,这,这样的数,据,据资源,),如此庞大,数,数据资源,足,足以支撑,和,和帮助它,完,完成这项,工,工作,大数据的,魅,魅力,大数据的,魅,魅力,大数据案,例,例,谷歌预测,冬,冬季流感,的,的传播,原理十分,简,简单,现在,大家都,有上网搜,索,索信息的,习,习惯,连,头,头痛感冒,也,也上网搜,索,索,谷歌,流,流感趋势,项,项目通过,记,记录搜索,有,有关,“,流感,”,词条的地,区,区和频率,,,,并,分析,其与流感,在,在时间和,空,空间上的,传,传播之间,的,的联系,,追踪到流,感,感广泛传,播,播的地区,,,,进而预,测,测流感可,能,能爆发的,高,高危地区,。,。,即,当某地区,在,在网上搜,寻,寻与流感,有,有关信息,的人日益,增,增多,,很可能意,味,味着该地,区,区有许多,人,人患上流,感,感类疾病,因为流感,趋,趋势项目,能,能够近乎,实,实时地估,计,计流感活,动,动情况,,故,它比其他,系,系统能够,更,更早地发,现,现流感疫,情,情,大数据的,魅,魅力,大数据案,例,例,谷歌预测,冬,冬季流感,的,的传播,谷歌把,5000,万条美国,人,人最频繁,检,检索的词,条,条与疾控,中,中心在,2003,年到,2008,年间季节,性,性流感传,播,播期间的,数,数据进行,比,比较,以,确,确定相关,检,检索词条,,,,并总共,处,处理了,4.5,亿,(?),个不同的,数,数学模型,在把得出,的,的预测与,2007,年和,2008,年美国疾,控,控中心记,录,录的实际,流,流感病例,进,进行对比,后,后,筛选,了,了,45,条检索词,条,条的组合,,,,并把它,们,们用于一,个,个特定的,数,数学模型,后,后,其预,测,测与官方,数,数据相关,性,性高达,97%,因此当,2009,年甲型,H1N1,流感爆发,时,时,与滞,后,后的官方,数,数据相比,,,,谷歌成,为,为一个更,有,有效及时,的,的指示者,大数据的,魅,魅力,大数据案,例,例,谷歌预测,冬,冬季流感,的,的传播,这是当今,社,社会所独,有,有的一种,新,新型能力,:,:以一种,前,前所未有,的,的方式,,通,通过对海,量,量数据的,分,分析,获,得,得巨大价,值,值的产品,和,和服务,,或,或深刻的,洞,洞见,大数据不,仅,仅会变革,公,公共卫生,,,,也会变,革,革商业、,变,变革思维,,,,改变政,府,府与民众,关,关系的方,法,法,,,开启重,大,大的时代,转,转型,大数据的,魅,魅力,大数据的,特,特点,体量巨大,(Volume),数据集合,的,的规模不,断,断扩大,,已,已从,GB(1024MB),到,TB(1024GB),再到,PB,级,甚至,已,已经开始,以,以,EB,和,ZB,来计数。,至,至今,,人类生产,的,的所有印,刷,刷材料的,数,数据量是,200PB,。未来,10,年,全球,大,大数据将,增,增加,50,倍,管理,数,数据仓库,的,的服务器,的,的数量将,增,增加,10,倍,类型繁多,(Variety),数据,种类繁多,,,,并且,被分为结,构,构化,、半结构,化,化和,非结构化,的,数据。,半结构化,和,和,非结构化,数,数据,包,括,括,传感器数,据,据、,网络日志,、,、音频、,视,视频、图,片,片、地理,位,位置信息,等,等,,占有量,越来越,大,已远,远,远超过结,构,构化数据,大数据的,魅,魅力,大数据的,特,特点,价值密度,低,低,(Value),。,数据总体,的,的,价值,巨大,但,价,价值,密度,很低,。以视频,为,为例,,在长达数,小,小时,连续不断的视,频,频监控中,有,用,用数据可能仅,一,一二秒。,另一极端是各,数,数据都有贡献,,,,但单个数据,价,价值很低,速度快,(Velocity),。,数据往往以数,据,据流的形式动,态,态快速地产生,,,,具有很强的,时,时效性,用户,只,只有把握好对,数,数据流的掌控,才,才能有效利用,这,这些数据。例,如,如,一天之内,需,需要审查,500,万起潜在的贸,易,易欺诈案件;,需,需要分析,5,亿条日实时呼,叫,叫的详细记录,,,,以预测客户,的,的流失率,大数据时代的,思,思维变革,数据采集和数,据,据处理技术已,经,经发生了翻天,覆,覆地的变化,,人,人们的思维和,方,方法要跟得上,这,这个变化,大数据时代的,精,精髓在于人们,分,分析信息时的,三,三个转变,这,些,些转变将改变,人,人们决策的制,定,定和对表象的,理,理解,大数据时代的,思,思维变革,变革一,更多,:,不是随机样本,而是全体数据,1.,随机抽样:用,最,最少的数据获,得,得最多的信息,过去由于获取,和,和分析全体数,据,据的困难,抽,样,样调查是一种,常,常用统计分析,方,方法。它根据,随,随机原则从总,体,体中抽取部分,实,实际数据进行,调,调查,并运用,概,概率估计方法,,,,根据样本数,据,据推算总体相,应,应的数量指标,抽样分析的精,确,确性随抽样随,机,机性的增加而,提,提高,与样本,数,数量的增加关,系,系不大。抽样,随,随机性高时,,分,分析的精度能,达,达到把全体作,为,为样本调查时,的,的,97%,样本选择的随,机,机性比样本数,量,量更重要,大数据时代的,思,思维变革,变革一,更多,:,不是随机样本,而是全体数据,1.,随机抽样:用,最,最少的数据获,得,得最多的信息,抽样分析的成,功,功依赖于抽样,的,的随机性,但,实,实现抽样的随,机,机性非常困难,当想了解更深,层,层次的细分领,域,域的情况时,,随,随机抽样方法,不,不一定有效,,即,即在宏观领域,起,起作用的方法,在,在微观领域可,能,能失去了作用,随机抽样需要,严,严密的安排和,执,执行,人们只,能,