资源预览内容
第1页 / 共49页
第2页 / 共49页
第3页 / 共49页
第4页 / 共49页
第5页 / 共49页
第6页 / 共49页
第7页 / 共49页
第8页 / 共49页
第9页 / 共49页
第10页 / 共49页
第11页 / 共49页
第12页 / 共49页
第13页 / 共49页
第14页 / 共49页
第15页 / 共49页
第16页 / 共49页
第17页 / 共49页
第18页 / 共49页
第19页 / 共49页
第20页 / 共49页
亲,该文档总共49页,到这儿已超出免费预览范围,如果喜欢就下载吧!
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,0,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,0,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,0,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,0,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,0,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,0,第十三章,项目实战:数据分析,13.1,数据清洗,13.2,数据存储,13.3,NumPy,13.4,案例剖析,第十三章项目实战:数据分析13.1 数据清洗13.2 数据,13.1,数据清洗,第十三章项目实战:数据分析,简介,大数据时代,数据便是掘金的黄金地带。企业大量的历史数据能否发挥其应有的价值,取决于企业采用什么样的分析手段,去发掘数据本身所蕴含的规律。数据分析人次炙手可热,已成为大数据时代企业争抢的焦点。本章,将以,Python,技术为基础,通过实际案例的讲解来使大家对数据分析的流程达到定性的认识。同时,通过课程实验,提高大家的动手能力,为使大家成为数据分析人才做好启蒙教育。,13.1 数据清洗 第十三章项目实战:数据分析简介大数据,2,13.1,数据清洗,第十三章项目实战:数据分析,编码问题,通常,源数据分布在不同的业务流程之中。而不同的业务流程中对数据的要求、理解和规格各不相同。导致对同一数据对象的描述千差万别。因此,在清洗数据的过程中,首先要对数据的编码格式做统一要求。,对于数据项的约定可从以下几个方面进行:,命名规则:对于同一数据对象,其名称应当是唯一的。比如页面访问量这个字段,可能称作访问深度、分为,PV,数、页面浏览量等。,数据类型:同一个数据对象的类型必须一致,而且表示方法唯一,如普通日期和时间戳的区分。,计数方法:对于数值类型的数据,单位务必统一。如:重量单位,千克、公斤、克、斤等,在数据表中必须用唯一单位。,约束条件:数据表之间的关系约定不能产生二义性。比如:表的主键、唯一性、外键约束等。,13.1 数据清洗 第十三章项目实战:数据分析编码问题通,3,13.1,数据清洗,第十三章项目实战:数据分析,缺失值分析,数据的缺失,主要包括记录的缺失和记录中某各字段信息的缺失。两者都会造成最终分析结果的不准确。下面,从缺失值产生的原因及处理方法进行介绍。,1,产生原因,缺失值产生的原因主要包括三大类,具体如下:,出于信息安全的需求。由于某种原因无法获取,或者获取成本过高。,人为的信息遗漏。可能是由于个人主观认识不到位,导致的因人为因素产生的遗漏。也可能是由于数据获取设备的故障所引起的非人为原因产生的丢失。,字段值的缺失。某些情况下,缺失值不一定意味者着数据的错误。比如儿童的手机号码、个人收入等字段值。,2,数据值的缺失,通常会给数据分析带来如下影响:,数据挖掘建模将丢失大量的有用信息。,13.1 数据清洗 第十三章项目实战:数据分析缺失值分析,4,13.1,数据清洗,第十三章项目实战:数据分析,缺失值分析,数据挖掘模型表现出来的不确定性更加显著,数据背后蕴含的规律更难发掘。,字段的空值会导致数据分析过程陷入混乱,致使分析产生不可靠的结果。,3,应对策略,生活中我们所采集到的数据常错综复杂,其值的缺失也是很常见。那么我们该如何处理这些缺失值呢?常用的有三大类方法,即删除法、填补法和插值法。,删除法:当数据中的某个变量大部分值都是缺失值,可以考虑删除改变量;当缺失值是随机分布的,且缺失的数量并不是很多是,也可以删除这些缺失的观测。,替补法:对于连续型变量,如果变量的分布近似或就是正态分布的话,可以用均值替代那些缺失值;如果变量是有偏的,可以使用中位数来代替那些缺失值;对于离散型变量,我们一般用众数去替换那些存在缺失的观测。,插补法:插补法是基于蒙特卡洛模拟法,结合线性模型、广义线性模型、决策树等方法计算出来的预测值替换缺失值。,13.1 数据清洗 第十三章项目实战:数据分析缺失值分析,5,13.1,数据清洗,第十三章项目实战:数据分析,去除异常值,异常值,是指数据样本中的个别值,其数值明显偏离对应字段的所有观察值。异常值又称离群点。异常值的分析是检验数据集中是否存在录入错误以及不合常理的数据。去除异常值的方法主要包括:,统计分析法,通常对变量的取值做一个简单的量化统计,尤其是数值型字段。进而查看那些取值超出合法取值范围。最常用的统计方法是求最大值、平均值、最小值。用最小值和最大值确定正常取值范围。用平均值替代空白字段值,将超出合理取值的记录剔除采样数据。比如:个人信息中的年龄字段取值超过,150,就属于异常取值,可考虑用平均取值替代。,3,分析法,通常,如果数据服从正态分布,在,3,思想的指导下,异常值被认定为与平均值偏差超过,3,倍标准差的数值。因为,在正态分布下,距离大于,3,倍标准差的数值的概率小与等于,0.003,,属于小概率事件。相反,若数据字段值不服从正态分布,可用远离平均值多少倍标准差约定异常数值。,13.1 数据清洗 第十三章项目实战:数据分析去除异常值,6,13.1,数据清洗,第十三章项目实战:数据分析,去除重复值与冗余信息,由于各种各样的原因,在获取的数据源中,经常存在重复的字段、重复的记录以及获取了与分析主题无关的数据项。这时,为了提高数据的质量,我们需要对源数据做去重处理和冗余处理。,对于重复数据的处理,我们通常采用的方法是“排序合并”。具体做法是:现将数据库表中的记录按照指定的规则排序,然后通过比较邻近记录是否相似来检测记录是否有重复。这项工作包括排序和相似度计算两个步骤。常用的排序方法有:插入排序、冒泡排序、快速排序、希尔排序等。常用的相似度计算方法有:基本的字段匹配算法、标准的欧氏距离法、相关系数、信息熵等。,另外,需要注意的是,对重复的数据项,尽量通过具体分析主题确定相关提取规则。在数据清洗阶段,对重复的数据切勿轻易的进行删除。尤其是不能将与分析主题相关的重要业务数据过滤掉。,对于与分析主题无关的数据项,也即我们通常说的冗余信息,同样,也不可直接剔除出数据源。而需要根据制定的提取规则通过子表的形式,生成新的和分析主题相关的数据表。,13.1 数据清洗 第十三章项目实战:数据分析去除重复值,7,第十一章,项目实战:爬虫程序,11.1,数据清洗,11.2,数据存储,11.3,NumPy,11.4,案例剖析,第十一章项目实战:爬虫程序11.1 数据清洗11.2 数据,13.2,数据存储,第十三章项目实战:数据分析,CSV文件存取,数据存取是数据分析的基础,尤其是面对海量数据,数据的存取方式显得尤为重要。本节,以,Pandas,库对象为基础重点介绍,python,数据分析中常见的几种数据存取方法。,CSV,(,Comma-Separated Value,,逗号分隔值)是一种常见的文件格式。通常,数据库的转存文件就是,CSV,格式的,文件中的各个字段对应于数据库表中的列。在,Pandas,中我们可以使用,read_csv(),函数将,.csv,数据读入程序。,比如,读取学生成绩数据,首先创建一个,stuscore.csv,文件,然后使用,pandas,对象的,read_csv(),函数读取并显示数据。,13.2 数据存储 第十三章项目实战:数据分析CSV文件,9,13.2,数据,存储,第十三章项目实战:数据分析,CSV文件存取,13.2 数据存储 第十三章项目实战:数据分析CSV文件,10,13.2,数据,存储,第十三章项目实战:数据分析,CSV文件存取,13.2 数据存储 第十三章项目实战:数据分析CSV文件,11,13.2,数据,存储,第十三章项目实战:数据分析,JSON文件的存取,JavaScript Object Notation,简称,Json,是一种与平台无关的数据格式,被广泛的用于应用或系统间的数据交换。,Pandas,提供的,read_json(),函数,可以用来创建,pandas Series,或者,pandas DataFrame,数据结构。同时,,pandas,也提供了,to_json(),函数用以完成数据框或序列到,json,格式的转换。关于,pandas,对,json,数据的存取比较简单,这里通过一个简单的示例来说明两者之间的转换关系。,13.2 数据存储 第十三章项目实战:数据分析JSON文,12,13.2,数据,存储,第十三章项目实战:数据分析,JSON文件的存取,13.2 数据存储 第十三章项目实战:数据分析JSON文,13,13.2,数据,存储,第十三章项目实战:数据分析,XLSX文件的存取,使用,pandas,读取,Excel,电子表格中的数据,需借助第三方库,xlrd,完成,Excel,表数据的读写操作。用,read_excel(),函数完成,Excel,电子表格中数据的读取,用,to_excel(),函数完成数据,pandas DataFrame,中的数据写入,Excel,。,为了完成,Excel,电子表格中数据的存取,我们先来完成,Python,第三方库,openpyxl,、,xlsxwriter,、,xlrd,、的安装。这里,还是使用,pip install,命令完成。,示例,Excel,数据 图,13.6,:,13.2 数据存储 第十三章项目实战:数据分析XLSX文,14,13.2,数据,存储,第十三章项目实战:数据分析,XLSX文件的存取,首先,我们用,pandas,的数据框来创建如图,13.6,的,Excel,数据表,然后,将创建的,Excel,表的数据输出。,13.2 数据存储 第十三章项目实战:数据分析XLSX文,15,13.2,数据,存储,第十三章项目实战:数据分析,XLSX文件的存取,df_out,写入的,excel,文件通常位于,Python,的安装目录下,如下图所示:,13.2 数据存储 第十三章项目实战:数据分析XLSX文,16,13.2,数据,存储,第十三章项目实战:数据分析,MySQL数据库文件的存取,大数据时代,海量的数据通常是保存在指定的数据库中,,MySQL,作为一种开源的关系型数据库,收到中小企业的青睐。本节,我们将以,MySQL,数据为对象,讲解,Pandas,对象是如何对其数据进行存取的。同样,我们以学生成绩单为例,,MySQL,数据源示例。,13.2 数据存储 第十三章项目实战:数据分析MySQL,17,13.2,数据,存储,第十三章项目实战:数据分析,MySQL数据库文件的存取,尝试第三方库,mysql.connector.python,的安装。同样,我们采用,pip install,命令完成。在,DOS,下输入如下命令:,pip install mysql.connector.python,13.2 数据存储 第十三章项目实战:数据分析MySQL,18,13.2,数据,存储,第十三章项目实战:数据分析,MySQL数据库文件的存取,13.2 数据存储 第十三章项目实战:数据分析MySQL,19,13.2,数据,存储,第十三章项目实战:数据分析,MySQL数据库文件的存取,为了完成,pandas,数据框中的数据写入,MySQL,的任务,首先需要安装支撑这一任务的链接器第三方,Python,库,sqlalchemy,。依旧使用,pip install,命令完成安装。,13.2 数据存储 第十三章项目实战:数据分析MySQL,20,13.2,数据,存储,第十三章项目实战:数据分析,MySQL数据库文件的存取,13.2 数据存储 第十三章项目实战:数据分析MySQL,21,13.2,数据,存储,第十三章项目实战:数据分析,MySQL数据库文件的存取,然后,通过,win+R,键打开运行对话框,输入,CM
点击显示更多内容>>

最新DOC

最新PPT

最新RAR

收藏 下载该资源
网站客服QQ:3392350380
装配图网版权所有
苏ICP备12009002号-6