资源预览内容
第1页 / 共42页
第2页 / 共42页
第3页 / 共42页
第4页 / 共42页
第5页 / 共42页
第6页 / 共42页
第7页 / 共42页
第8页 / 共42页
第9页 / 共42页
第10页 / 共42页
第11页 / 共42页
第12页 / 共42页
第13页 / 共42页
第14页 / 共42页
第15页 / 共42页
第16页 / 共42页
第17页 / 共42页
第18页 / 共42页
第19页 / 共42页
第20页 / 共42页
亲,该文档总共42页,到这儿已超出免费预览范围,如果喜欢就下载吧!
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,数据挖掘模型评估,2024/11/16,1,数据挖掘模型评估2023/10/41,1,一、评估分类法的准确率,2024/11/16,2,评估分类法准确率的技术有保持(,holdout,)和,k-,折交叉确认(,k-fold cross-validation,)方法。,另外,还有两种提供分类法准确率的策略:装袋(,bagging,)和推进(,boosting,)。,1,、保持和,k-,折交叉,在保持方法中,给定数据随机划分成两个独立的集合:训练集和测试集。通常,三分之二的数据分配到训练集,其余三分之一分配到训练集。,一、评估分类法的准确率2023/10/42评估分类法准确率的,2,2024/11/16,3,“保持”这种评估方法是保守的,因为只有一部分初始数据用于导出的分类法。,随机子选样是“保持”方法的一种变形,它将“保持”方法重复,k,次。总体准确率估计取每次迭代准确率的平均值。,2023/10/43“保持”这种评估方法是保守的,因为只有一,3,K,折交叉确认,在,k,折交叉确认(,kfold crossvalidation,)中,初试数据被划分成,k,个互不相交的子集或“折”,每个折的大小大致相等。训练和测试,k,次。在第,i,次迭代,第,i,折用作测试集,其余的子集都用于训练分类法。,准确率估计是,k,次迭代正确分类数除以初始数据中的样本总数。,2024/11/16,4,K折交叉确认在k折交叉确认(kfold crossv,4,2,、提高分类法的准确率,2024/11/16,5,装袋,2、提高分类法的准确率2023/10/45装袋,5,2024/11/16,6,推进,即使用相同的分类器,各个分类器不是独立的;使用同一个算法对样本迭代训练,后建立的分类器关注于先前建立的分类器不能更好处理的部分数据;最终的输出为各个分类器的加权投票。,2023/10/46推进即使用相同的分类器,各个分类器不是,6,3,、灵敏性和特效性度量,假定你已经训练了一个分类法,将医疗数据分类为“cancer”或“non_cancer”。90%的准确率使得该分类法看上去相当准确,但是如果实际只有34%的训练样本是“cancer”会怎么样?,显然,90%的准确率是不能接受的该分类法只能正确的标记“non_cancer”(称作负样本)样本。但我们希望评估该分类能够识别“cancer”(称作正样本)的情况。,2024/11/16,7,3、灵敏性和特效性度量假定你已经训练了一个分类法,将医疗数据,7,为此,除用准确率评价分类模型外,还需要使用灵敏性(sensitivity)和特效性(specificity)度量。,还可以使用精度(precision)来度量,即评估标记为“cancer”,实际是“cancer”的样本百分比。,2024/11/16,8,为此,除用准确率评价分类模型外,还需要使用灵敏性(sensi,8,其中,,t_pos,是真正样本(被正确地按此分类的“,cancer,”样本)数,,pos,是正(“,cancer,”)样本数,,t_neg,是真负样本(被正确地按此分类的“,non_cancer,”样本)数,,neg,是负(“,non_cancer,”)样本数,,而,f_pos,假正样本(被错误地标记为“,cancer,”的“,non_cancer,”样本)数,2024/11/16,9,灵敏性,特效性,精度,其中,t_pos是真正样本(被正确地按此分类的“cancer,9,2024/11/16,10,预测值,1,(实际“,cancer,”),0,(实际,no_cancer,),1(,预测“,cancer,”,),0,0,0(,预测“,no_cancer,”,),10,90,2023/10/410预测值1(实际“cancer”)0(实,10,二、数据挖掘模型评估的错误观念,传统评估分类预测模型时,通常使用的是“准确度”。它的功能是评估模型分类实物是否正确。准确度越高模型就越好。,但事实上,这样评估出来的模型并不是最好的。,2024/11/16,11,二、数据挖掘模型评估的错误观念传统评估分类预测模型时,通常使,11,例:某家银行发行现金卡,风险控管部门主管决定建立,DM,模型,利用申请人申请当时的所填的资料,建立违约预测模型,来作为核发现金卡以及给予额度的标准。,该银行邀请两家,DM,公司来设计模型,评比的标准是根据模型的“准确度”。,根据此标准,,A,公司所建模型的准确度,92%,,,B,公司的准确度是,68%,。,银行和,A,公司签约。,2024/11/16,12,例:某家银行发行现金卡,风险控管部门主管决定建立DM模型,利,12,利用,A,公司的模型后,结果发现里面只有一条规则,那就是“所有的人都不会违约”。,为什么?,A,:所有的人都不会违约,因此它错误的只有,8%,的违约分类错误(违约误判为不违约),因此准确率是,92%,。,B,:在根据评分由高至低筛选出来前,40%,的名单中,可以将所有的违约户都找出来。即有,32%,的非违约户被误判为违约户,因此准确率只有,68%,。,哪一家的模型更好呢?,由上可以发现,不能使用准确率来评判模型的优劣。,2024/11/16,13,利用A公司的模型后,结果发现里面只有一条规则,那就是“所有的,13,为什么会出现这样的结果?,原因在于两类错误,忽略了“,错误不等价,”。,如果把一个“会违约的人判断成不会违约”,这家银行损失,20,30,万元的现金卡卡金,但是如果将一个“不会违约的人错判成违约”,只是划分了一些审查成本以及可能因为保守给予额度而造成的机会成本损失。,因此两种误判所造成的效益影响是不等价的。,2024/11/16,14,为什么会出现这样的结果?原因在于两类错误,忽略了“错误不等价,14,所谓小概率事件是发生概率小,而且一定是能够为企业界带来高度获利或严重损失的事件。,由于小概率事件发生概率很小,如果针对所有客户采取行动,就会形成浪费,因此,需要利用预测的技术将小概率事件找出来。那么,只针对预测的小概率事件采取行动就会避免浪费。,DM,的价值就在于能够利用历史资料找出,“小概率事件”。,2024/11/16,15,小概率事件:,所谓小概率事件是发生概率小,而且一定是能够为企业界带来高度获,15,因此,评估数据挖掘模型的第一步就必须从错误状态的分类入手。这需要建立分类矩阵,通过分类矩阵来查看所有错误的分布。,2024/11/16,16,因此,评估数据挖掘模型的第一步就必须从错误状态的分类入手。这,16,H,0,为真,H,0,为假,真实情况,所作判断,接受,H,0,拒绝,H,0,正确,正确,弃真错误,取伪错误,两类错误,犯第一类错误是弃真错误;,犯第二类错误是取伪错误,。,2024/11/16,17,三、分类矩阵,H0 为真H0 为假真实情况所作判断接受H0拒绝H0正确正确,17,对于,DM,来说,通常第二类错误的损失或收益要比第一类高。,因此,我们需要确定哪一个状况是我们所关心的小概率事件。,把对这个事件的误判会造成极大损失的情况,作为第二类错误。,例,把一个好账的人当作呆账是第一类错误,把一个呆账的人当作好账是第二类错误。,2024/11/16,18,对于DM来说,通常第二类错误的损失或收益要比第一类高。202,18,预测值,1,(实际“会违约”),0,(实际“不会违约”),1,66,28,0,185,721,2024/11/16,19,表中,预测为会违约且实际也会违约的有,66,人,预测不会违约且实际没有违约的有,721,人,这些是分类正确者。,表中,预测为会违约且实际没有违约的有,28,人,预测不会违约且实际违约的有,185,人,这些是预测模型判断错误的部分。,其中,后者还会造成比较严重的损失,是值得关注的部分。,预测值1(实际“会违约”)0(实际“不会违约”)166280,19,该如何使用分类矩阵的信息呢?,2024/11/16,20,主要看三个指标,即回应率、反查率以及间距缩减。,该如何使用分类矩阵的信息呢?2023/10/420主要看三个,20,Response rate,=,预测会违约且实际会违约,/,所有预测会违约,=66/(66+28)=70.21%,预测模型回应率的高低须和总体回应率比较:,总体,response rate,=,总体实际会违约,/,总体,=(66+185)/(66+185+28+721)=25.1%,2024/11/16,21,预测值,1,(实际“会违约”),0,(实际“不会违约”),1,66,28,0,185,721,回应率,(response rate),:在预测的名单中找出有多少小概率事件(在预测违约的名单中,真正违约的所占比例是多少)。,Response rate2023/10/421预测值1(实,21,可以发现,原始回应率为,25.1%,,运用数据挖掘模型提升为,70.21%,,因此回应率提升了,2.8,倍。,回应率讲究的是模型“宁缺勿滥”的能力。,回应率高并不代表一定是好模型,因为如果利用数据挖掘模型从一万人中挑出,10,个最有可能会买产品的顾客,结果回应率是,100%,,但是却漏掉了大多数会买产品的顾客,因此,还得参考“反查率”这个指标。,2024/11/16,22,可以发现,原始回应率为25.1%,运用数据挖掘模型提升为70,22,Recall,=,预测会违约且实际违约,/,所有实际会违约,=66/(66+185)=26.29%,它的意义在于:预测出来会违约的人占了总体会违约的客户多少百分比。反查率越高,表明犯第二类错误的可能性越小,那么模型越好。,2024/11/16,23,预测值,1,(实际“会违约”),0,(实际“不会违约”),1,66,28,0,185,721,反查,(recall),:预测出来的小概率事件占总体小概率事件的比例是多少。,Recall2023/10/423预测值1(实际“会违约”),23,完美的预测模型反查率是,100%,,但是反查率与回应率是互相矛盾的。,recall=67/(67+184),66/(66+185),Response rate=67/(67+38),66/(66+28),2024/11/16,24,预测值,1,(实际“会违约”),0,(实际“不会违约”),1,67,38,0,184,711,预测值,1,(实际值),0,(实际值),1,66,28,0,185,721,完美的预测模型反查率是100%,但是反查率与回应率是互相矛盾,24,Range reduce,=,预测会违约,/,总体,=(66+28)/(66+28+721+185),=9.4%,间距缩减代表的是根据模型执行活动时的成本,当如果名单量没有有效缩减
点击显示更多内容>>

最新DOC

最新PPT

最新RAR

收藏 下载该资源
网站客服QQ:3392350380
装配图网版权所有
苏ICP备12009002号-6