,单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,基于数据挖掘的红楼梦作者考证,指导老师:,学生姓名:,答辩时间:2009年6月9日,基于数据挖掘的红楼梦作者考证指导老师:,1,答辩内容,课题背景及意义,研究动态,数据挖掘流程,经典聚类算法,实验过程,结果分析,总结与展望,答辩内容课题背景及意义,2,课题背景与意义,红学研究国际化、现代化,红楼梦用词的偶然性与客观规律,数据挖掘提取客观规律,意义,现代方法探索古代文学,加深对红楼梦的认识、理解,课题背景与意义红学研究国际化、现代化,3,研究动态,国际上:现代化“国际红学资料中心”,深圳大学:红楼梦多功能计算机自动,检索系统,复旦大学李贤平教授:红楼梦成书新说,研究动态 国际上:现代化“国际红学资料中心”,4,数据挖掘系统图,数据挖掘系统图,5,数据挖掘流程,数据挖掘(Data Mining,简称DM):,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。,主要内容,数据选择,数据预处理,数据挖掘流程数据挖掘(Data Mining,简称DM):,6,经典聚类算法,聚类:把一组个体按照相似性划分成若干个,类别,聚类算法,k-means算法,分层聚类法,采用估算最大值法,经典聚类算法聚类:把一组个体按照相似性划分成若干个,7,K-means算法,思想:相邻两次的聚类中心没有任何变化,数据对象调整结束。,特点,相对易实现,时空效率高,应用广泛,K-means算法思想:相邻两次的聚类中心没有任何变化,数据,8,K-means算法(续),流程步骤,从 n个数据对象任选 k 个作为初始聚类中心,循环3到5直到每个聚类不再发生变化为止,计算每个对象与中心对象的距离,根据最小距离重新划分,重新计算中心对象,实现代码,K-means算法(续)流程步骤,9,实验过程,数据选择,原则:与文章内容关系小,所选字词:虚词(之,其,或,亦),,转折词(而,虽,然,但),实现:字频统计程序,实验过程数据选择,10,实验过程(续1),数据预处理,数据归一化:范围01,归一化公式:,实验过程(续1)数据预处理,11,实验过程(续2),数据分析,K的取值从1到10,对所取k值运行k-means程序,分别得出运行结果,实验过程(续2)数据分析,12,结果分析,对所取k得到的结果进行分析,确定最终的聚类结果,图示该结果(还没弄出来),结果分析对所取k得到的结果进行分析,13,总结与展望,完成用数据挖掘方法考证红楼梦作者,在前人研究基础上增强了精确度,考证工作的进一步完善,词语选择,人物关系,算法改进,总结与展望完成用数据挖掘方法考证红楼梦作者,14,谢 谢!,15,