单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,训练集对文本分类的影响,2005.9.25,主要内容,1.训练集质量对分类结果的影响,2.类别均衡法,3.实验结果及分析,4.结论,训练集质量对分类结果的影响,良好的训练集,类别分布均衡,每个类别中的文档都能够很好的代表该类别,类别中各文档在特征空间中的分布比较集中,稀有类别,由于信息资源分布的特点,信息明显匮乏的类别,实验中采用的数据集,两个训练集,20_,newsgroups,20,个类别,每个类别包含约1,000篇文档,训练集和测试集按照1:1随机划分,复旦大学分类语料库,20个类别,最大的类别包含,1,600,篇文档,最小的类别包含,25,篇文档,训练集包含,9,804,篇文档,测试集包含,9,833,篇文档,原始数据集上Nave Bayes分类性能,图1 原始数据集上,Na,ve Bayes,分类性能比较,原始数据集上,Rocchio,分类性能,图2 原始数据集上,Rocchio,分类性能比较,原始数据集实验结果分析,观察微平均和宏平均值的差异,在,Nave Bayes,分类器上,复旦大学语料库的微平均,F,1,值和,20_,newsgroups,的相当,甚至还稍高,而宏平均,F,1,值却只有,45,左右。,根据微平均和宏平均的定义,宏平均受小类别的影响较大,可以得出,前者性能的降低完全是由于小类别的影响。,复旦语料库小类别的Nave Bayes分类性能,图3 复旦语料库小类别的,Na,ve Bayes,分类性能比较,复旦语料库小类别的Rocchio分类性能,图4 复旦语料库小类别的,Rocchio,分类性能比较,小类别实验结果分析,不论用,Nave Bayes,还是,Rocchio,,,仅仅在小类别上训练的分类器对小类别的分类性能远远大于它们在原来的分类器上的性能。,由此可见,并不是小类别包含的信息不足以正确分类文档,而是小类别的信息量无法与大类别抗衡,其信息容易淹没在大类别中,导致小类别文档被大量误分。,类别均衡法,对于一个已经采集好的类别分布不均衡的训练集,为了尽量减小由于类别分布不均衡给分类性能带来的影响,我们提出了一种类别均衡法对类别分布不均衡的训练集进行处理。,类别均衡法的本质就是使训练尽可能在数量级相当的类别上进行,避免对小类别的不公平对待。,类别均衡法的训练过程,先对训练集进行预处理,把所有的小类别合并成一个或几个新的较大的类别,这些新类别具有和训练集中原有的大类别相同或相近的数量级,由此形成了一个新的类别分布比较均衡的训练集;,在这个重新组合过的新训练集上进行训练,得到一个分类器,我们称之为一级分类器;,把原有的几个小类别组成一个小的训练集,进行分类训练,也得到一个分类器,我们称之为二级分类器,至此,训练过程结束。,类别均衡法的分类过程,当一个未知类别的文档到达分类器的时候,首先用一级分类器对其进行分类,判断分类结果,即如果第一次的分类结果为训练集原有的类别,则把该结果作为文档类别;如果第一次的分类结果为组合成的新类别,则需要用二级分类器对该文档进行第二次分类,二级分类器的分类结果为文档最终类别。其流程图如图5所示。,类别均衡法的分类过程,图5 类别均衡法的分类流程图,类别均衡法,类别均衡法的各分类器是采用级联的方法,但在训练和分类过程中对每个文本赋予相同的权重,只是根据分类结果来决定是否需要对该文档进行进一步的处理。分类效果好的文本不再输入下一个分类器。,实验结果及分析,我们使用类别均衡法对复旦大学语料库进行训练,首先把,11,个小类别合并为一个大类别,合并后的类别包含,486,篇文档,此时该类别与原训练集中的其他,9,个大类别基本处于一个数量级上;然后,用新组成的包含,10,个大类别的训练集进行训练,所得分类器为一级分类器。接着仅使用,11,个小类别训练,所得分类器为二级分类器。,类别均衡法的Nave Bayes性能,图6 类别均衡法的,Na,ve Bayes,性能比较,类别均衡法的Rocchio性能,图7 类别均衡法的,Rocchio,性能比较,实验结果分析(1),Nave Bayes,分类,平均的宏平均,F,1,从,48.62,提高到了,80.99,,微平均,F,1,从,85.51,提高到了,86.22,,由于宏平均受小类别影响较大,所以对宏平均,F,1,的影响较大。,Rocchio,分类,平均的宏平均,F,1,从,64.58,提高到,80.26,,微平均,F,1,值从,73.99,提高到,80.47,。,实验结果分析(2),使用类别均衡法进行训练,会使得训练时间有所增加。假设训练集中大类别文档有,n,1,篇,小类别文档有,n,2,篇,则训练的时间复杂度将从,O,(,n,1,+,n,2,),增加到,O,(,n,1,+2,n,2,),,,即小类别文档将进行两次训练。但是,由于在训练集中通常,n,2,n,1,所以并不会导致训练时间大幅增加。,使用类别均衡法进行分类,对于原本属于大类别的文档,其分类时间不变;对于原本属于小类别的文档,其分类时间有所增加,增加了在二级分类器进行分类的时间。但由于二级分类器的训练样本较少,相应的其分类时间也较少。该方法的结果是,用较少的分类时间的增加,换取了小类别样本分类精度的显著提高。,结论,由于不均衡数据集中小类别的影响,均衡数据集的分类性能远远超过不均衡数据集的分类性能。,类别均衡法,对现有的训练集以类为单位进行重新组合,使得重组后的训练集类别分布尽可能均衡,从而可以在均衡的类别上进行训练和分类。实验结果表明,该方法虽然稍微延长了训练时间,但却显著提高了分类性能。,类别均衡法的一大优势是,不用对小类别的训练样本重新采集扩充,在现有的训练集基础上,只需对训练集进行重组处理,就可以显著提高分类性能。,参考文献,120_,newsgroupsEB/OL.,2004.,2Text categorization data set(Fudan)EB/OL.,2004.,3Jiawei Han,and Micheline Kamber.Data Mining:Concepts and Technologies M.Berlin:Morgan Kaufmann Publishers,2001.,4 Fabrizio Sebastiani.Machine learning in automated text categorization J.ACM Computing Surveys,2002,34(1):1-47.,5 Hull D.A.Improving text retrieval for the routing problem using latent semantic indexing A.,Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,C.New York:Springer-Verlag New York,Inc.,1994.282-291.,谢谢!,