,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,生物医学数据挖掘,Biomedical Data Mining,生物医学数据挖掘Biomedical Data Minin,2,回顾,第一章 概论,一、什么是数据挖掘,二、数据挖掘的过程,三、数据挖掘方法的分类,预测型,描述型,2回顾第一章 概论,3,第一章 概论,一、什么是数据挖掘,二、数据挖掘的过程,三、数据挖掘方法的分类,四、数据挖掘性能评价,评价准则,样本的组织,预测型模型的性能评价,描述型模型的性能评价,3第一章 概论一、什么是数据挖掘,4,评价准则:结果或模型,准确性,可理解性,性能,数据的噪声,四、数据挖掘性能评价,4评价准则:结果或模型四、数据挖掘性能评价,5,样本的组织,所有样本属性已知,两类样本:相互独立,学习样本,/,训练样本集:规律的总结,测试样本集:评价、检验,四、数据挖掘性能评价,5样本的组织四、数据挖掘性能评价,6,两类样本的分组,6两类样本的分组,7,随机分组法:,通常:训练集,(2/3),,测试集,(1/3),两类样本的分组,模型,评估,7随机分组法:两类样本的分组模型评估,8,交叉验证法:,如,K,折交叉验证法(一般随机分成,10,组),留一法:适用样本数据更少的情况,两类样本的分组,8交叉验证法:两类样本的分组,9,举例,例,1.,预测型模型,肺癌 干预,(,手术,/,手术化疗,),及预后(五年生存),共,5,万个样本,其中,1.7,万干预后,5,年内死于肺癌,如何组织数据进行数据挖掘?,9举例例1.预测型模型,10,例,2.,共,1000,个,其中,315,个五年内死亡,如何组织数据?,例,3.,共,49,个,,14,个,5,年内死亡,,35,个存活,如何组织数据?,10例2.,11,总结:,随机,分布与总体相近,计算成本的考虑,样本要保证足够多,但不只是数量的多少,11,12,预测型模型的性能评价,残差,混淆矩阵,P10,灵敏度(,sensitivity,),特异度(,specificity,),分类正确率(,accuracy,),ROC,(,receiver operating characteristics curve,)曲线,四、数据挖掘性能评价,12预测型模型的性能评价四、数据挖掘性能评价,13,灵敏度,特异度,分类正确率,四、数据挖掘性能评价,13四、数据挖掘性能评价,14,例:,ECG(electrocardiogram),诊断试验的结果,灵敏度,=,?,特异度,=,?,分类正确率,=?,14例:ECG(electrocardiogram)诊断试验,15,灵敏度与特异度,取值:均在,0-1,之间,缺点:单独使用,可能出现矛盾,解决办法:,ROC,曲线,15灵敏度与特异度,16,ROC,曲线,灵敏度与特异度间的平衡,(trade off),四、数据挖掘性能评价,1,特异度(假阳性率),灵敏度,机率线,(chance line)(diagonal reference line),16ROC曲线四、数据挖掘性能评价1特异度(假阳性率)灵敏,17,完美结果,0.0,0.2,0.4,0.6,0.8,1.0,0.0,0.2,0.4,0.6,0.8,1.0,FPR,T,P,R,无用结果,0.0,0.2,0.4,0.6,0.8,1.0,0.0,0.2,0.4,0.6,0.8,1.0,FPR,T,P,R,17完美结果0.00.20.40.60.81.00.00.2,18,ROC,曲线下面积(,Area,),高,0.90-1.00=excellent(A),中,0.80-0.90=good(B)0.70-0.80=fair(C),低,0.60-0.70=poor(D)0.50-0.60=fail(F),0.0,0.2,0.4,0.6,0.8,1.0,0.0,0.2,0.4,0.6,0.8,1.0,FPR,T,P,R,0.0,0.2,0.4,0.6,0.8,1.0,0.0,0.2,0.4,0.6,0.8,1.0,FPR,T,P,R,A,0.664,A,0.830,0.0,0.2,0.4,0.6,0.8,1.0,0.0,0.2,0.4,0.6,0.8,1.0,FPR,T,P,R,A,0.938,18ROC曲线下面积(Area)0.00.20.40.60.,19,例,4.,继续前例,,干预及预后(五年生存),共,5,万个样本,其中,1.7,万干预后,,5,年内死于肺癌,其余,3.3,万存活。,假定对上述数据分别建立了预测型模型,A,和,B,,,试比较两个模型的性能。,19例4.继续前例,,20,模型,A,模型,B,20模型A,21,比较模型,A,与,B,:,21比较模型A与B:,22,性能评价的作用:,如实表明,描述模型的性能,可以比较,模型性能的优劣、高低,同一问题可多个模型,即使仅一个模型,可设计多个参数,22性能评价的作用:,23,总结,第一章 概论,一、什么是数据挖掘,二、数据挖掘的过程,三、数据挖掘方法的分类,四、数据挖掘性能评价,23总结第一章 概论,24,第二章 数据采集与准备,一、数据的采集和组织,1.,数据采集和管理,2.,数据的组织,3.,数据的类型,二、数据管理,三、数据预处理,24第二章 数据采集与准备一、数据的采集和组织,25,一、数据的采集和组织,数据采集和管理,关系数据库,DB,既往的数据,如电子病例,数据仓库,DW,面向特定目标的、集成的数据集合,如,HIS,25一、数据的采集和组织数据采集和管理,26,一、数据的采集和组织,数据组织,平面文件,记录:处理的对象,属性:一个特征,26一、数据的采集和组织数据组织,27,一、数据的采集和组织,数据的类型,数值:可运算,如年龄、血压,分类:文字或数字,不可运算,二值型:,对称:如性别:男、女,非对称:如阳性,1,、阴性,0,排序型,数值型和分类型数据的转换,27一、数据的采集和组织数据的类型,28,一、数据的采集和组织,例,.,采集原始数据,姓名:,ID,:,性别:,年龄:,血压:,肿瘤,TNM,分期:,28一、数据的采集和组织例.采集原始数据,29,第二章 数据采集与准备,一、数据的采集和组织,二、数据管理,1.Excel,2.,关系数据库,三、数据预处理,29第二章 数据采集与准备一、数据的采集和组织,30,二、,数据管理,Excel,数据管理,数据清单,排序、筛选,统计分析,分类汇总,30二、数据管理Excel数据管理,31,二、,数据管理,关系数据库,数据定义,排序、索引和筛选,查询和统计,31二、数据管理关系数据库,