毕业论文PPT答辩-基于数据挖掘的红楼梦作者考证课件-

,单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,基于数据挖掘的红楼梦作者考证,指导老师：,学生姓名：,答辩时间：2009年6月9日,基于数据挖掘的红楼梦作者考证指导老师：,1,答辩内容,课题背景及意义,研究动态,数据挖掘流程,经典聚类算法,实验过程,结果分析,总结与展望,答辩内容课题背景及意义,2,课题背景与意义,红学研究国际化、现代化,红楼梦用词的偶然性与客观规律,数据挖掘提取客观规律,意义,现代方法探索古代文学,加深对红楼梦的认识、理解,课题背景与意义红学研究国际化、现代化,3,研究动态,国际上：现代化“国际红学资料中心”,深圳大学：红楼梦多功能计算机自动,检索系统,复旦大学李贤平教授：红楼梦成书新说,研究动态国际上：现代化“国际红学资料中心”,4,数据挖掘系统图,数据挖掘系统图,5,数据挖掘流程,数据挖掘（Data Mining，简称DM）：,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。,主要内容,数据选择,数据预处理,数据挖掘流程数据挖掘（Data Mining，简称DM）：,6,经典聚类算法,聚类：把一组个体按照相似性划分成若干个,类别,聚类算法,k-means算法,分层聚类法,采用估算最大值法,经典聚类算法聚类：把一组个体按照相似性划分成若干个,7,K-means算法,思想：相邻两次的聚类中心没有任何变化，数据对象调整结束。,特点,相对易实现,时空效率高,应用广泛,K-means算法思想：相邻两次的聚类中心没有任何变化，数据,8,K-means算法（续）,流程步骤,从 n个数据对象任选 k 个作为初始聚类中心,循环3到5直到每个聚类不再发生变化为止,计算每个对象与中心对象的距离,根据最小距离重新划分,重新计算中心对象,实现代码,K-means算法（续）流程步骤,9,实验过程,数据选择,原则：与文章内容关系小,所选字词：虚词(之，其,或，亦)，,转折词(而，虽，然，但),实现：字频统计程序,实验过程数据选择,10,实验过程（续1）,数据预处理,数据归一化：范围01,归一化公式：,实验过程（续1）数据预处理,11,实验过程（续2）,数据分析,K的取值从1到10,对所取k值运行k-means程序,分别得出运行结果,实验过程（续2）数据分析,12,结果分析,对所取k得到的结果进行分析,确定最终的聚类结果,图示该结果（还没弄出来）,结果分析对所取k得到的结果进行分析,13,总结与展望,完成用数据挖掘方法考证红楼梦作者,在前人研究基础上增强了精确度,考证工作的进一步完善,词语选择,人物关系,算法改进,总结与展望完成用数据挖掘方法考证红楼梦作者,14,谢谢!,15,

最新DOC

最新PPT

最新RAR