单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,基于web的藏文文本自动分类研究与实现,指导老师:安见才让副教授,张有谊教授,学 生:叶西切忠,青海民族大学,硕士学位论文开题报告,2021年7月1日,一、选题意义,二、国内、外研究现状,三、本课题研究的目标、内容及重点、难点和创新点,四、研究的技术路线,五、本课题的研究方法,六、论文工作方案,七、论文总体框架,八、主要参考文献及出处,目录,一、选题意义,随着科学技术的迅速开展和因特网的快速普及,网上信息就如一个浩瀚的信息大海。但用户往往只需要其中的很少一局部,从而加剧了信息获取的困难。当人们游览一个藏文网站查找信息时,如果藏文网页凌乱的堆积在一起没有类别供人们查找,会使人们很难找到自己所需要的信息。因此如何要科学有效的管理和分类这些资料是不可回避而又意义深重的一个问题。资料管理的一个比较传统的方法就是对它们进行系统地分类。用人工对文本材料进行分类的过程一般就是通过读取所有文章后再对它们进行归类保存,然而这需要许多具有很高学识的专业人士做大量的工作才能完成。该过程具有周期长、费用高、效率低的特点。在这个网络信息爆炸的今天,要人工完成信息分类的工作却是一个不可思议的事情。因此,如何运用计算机进行文本自动分类,成了许多人的研究方向。,文本自动分类系统是信息处理的重要研究方向。它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。,目前,藏文网页和藏文图书馆的逐渐增多,要人工完成藏文网页和藏文图书等分类工作却是一个很困难的事情。因此,用计算机代替人工进行藏文文本的自动分类,尽可能地满足人们所期望的各类藏文文本分类应用需求具有很大研究意义和重要的实现意义。,藏文文本的分类和其他文本分类一样,也关注的是文本的类型。藏文文本自动分类的研究对藏文搜索引擎、藏文数字图书馆、藏语语料库的建设以及藏文出版等领域具有广泛的应用前景和很重要的现实意义。目前已经出现了很多有效的汉英文文本分类算法,假设K近邻算法KNN、贝叶斯算法、支持向量算法等。由于藏文语法结构的特殊性,已有的这些分类算法不能直接使用到藏文文本分类中,需要依藏文文法的特性创新一种符合藏文结构特征的分类算法。因此,研究该课题具有创新意义。,另外,文本分类技术对推动社会的开展,方便人们的学习与生活,促进人们的工作效率和生活质量的提高有重要的意义。,二、国内、外研究现状,1、,国外研究现状,2、,国内研究现状,1、国外研究现状,国外对于文本自动分类的研究较早,50年代末,在这个领域进行了开创性的研究,提出了基于词频统计思想的文本自动分类方法。1960年,Maron发表了关于自动分类算法的第一篇论文,随后许多学者也在这一领域进行了很有成效的研究工作。,从20世纪60年代直到20世纪80年代末,这期间最有效的文本分类系统一直是专家人工构建的基于知识工程技术的分类系统。其典型的有卡内基集团为路透社开发的Construe系统,它主要是由专业人员编写一些分类规那么来指导分类,它的关键不能缺少知识工程师和领域专家。到90年代初期,基于机器学习的分类技术开始取代基于知识工程的方法成为文本分类的主流技术。这种分类方法不再需要知识工程师和领域专家的介入,节约了大量的专家人力资源,同时加快了分类系统的速度。其后国外研究者们结合机器学习方,法和人工智能技术进行了探讨,提出了多种分类算法和分类模型,如基于向量空间模型的分类器及其一系列算法,K近邻算法KNN、贝叶斯算法、支持向量算法、神经网络等等。这些算法在英文以及欧洲语种文本自动分类上有广泛的研究,均取得了不错的效果。,1997年,德国Dortmund大学计算机系的Torsten 等人研究了基于向量空间模型的自动分类系统、1999年,美国Massachusetts大学计算机系专门针对文本库开发了自动分类系统、美国IBM和Oracle公司为推广电子商务而研制了基于文本内容的电子邮件自动分类系统、Microsoft公司也为浏览器开发了基于内容属性分类的插件。,目前,国外的文本分类研究已经从实验性阶段进入到了实用化阶段,并在邮件分类,电子会议等方法取得了广泛的应用。,2、国内研究现状,国内对汉文文本自动分类的研究起步较晚,1981年,侯汉清教授对计算机在文本分类工作中应用作了探讨和阐述。此后,我国陆续研究产生了一些文本分类系统,其中具有代表性的有广东省中山图书馆的莫少强开发的计算机辅助图书分类系统、清华大学吴军研制的自动分类系统、山西大学刘开瑛等人开发的金融自动分类系统、上海交通大学王永成等研制的基于神经网络优化算法的中文自动分类系统。中科院计算所的李晓黎、史忠植等人应用概念推理网进行文本分类,中国科技大学的范众等人在KNN、贝叶斯和文档相似性研究的根底上提出了一个分类器。复旦大学和富士通研究中心的黄营著、吴立德等人研究了独立语种的文本分类。,藏文文本分类的研究目前是处于初始阶段。西北民族大学的贾会强、李永宏等人利用基于类别特征向量的分类算法和Boosting算法实现藏文文本分类器的设计与实现,此分类器在实际应用中还存在一些藏文文本无法归属那个具体的藏文文本类别的问题。近期,由青海民族大学计算机系安见才让教授已实现从浩如烟海的网页中按照藏文关键字进行的分类搜索,该技术的成功实现,为广阔藏文学习者和使用者在互联网上进行搜索学习提供了交流的平台,推广了藏语言文字的使用范围。由于目前该技术待进一步完善,其应用受到了一定的限制。,除此之外,几乎无人研究本课题。,三、本课题研究的目标、内容及重点、难点和创新点,一研究目标,二研究内容,三研究的重难点,四创新点,一研究的目标,研究并提出符合藏文特性的最正确分类系统来解决各类web藏文网页分类问题。,1.网络爬虫的实现,2.研究藏文网页的净化技术,3.研究藏文编码的识别与转换技术,4.藏文分词的研究,5.研究特征项选择及权值计算算法,二研究的内容,1.网络爬虫的实现,通过网页爬虫从万维网上下载国内藏文网页,保存到本地硬盘上。,2.研究藏文网页的净化技术,藏文网页与普通藏文文档不同,具有半结构化的特点,所含信息除了网页正文外,还有网页所含的超文本标记、网页间的超链等。因此,在藏文分词之前必须要根据网页的特点,进行扫描分析,以提取出其中有用的内容,进行正确的识别和处理,并根据HTML标记对网页不同局部的文本进行加权处理。,3.研究藏文编码的识别与转换技术,由于藏文国际标准编码和国家标准编码出台的相对滞后,市场上各种软件厂商采用自己的编码标准,使得各藏文网站信息之间不能兼容,信息不能共享,从而严重影响了藏文信息处理工作的开展。,4.藏文分词的研究,在英文中,单词之间是以空格作为自然分界符的,而汉文和藏文是词与词之间没有明显的分隔符(如空格)。藏文以字(音节字)为单位,需要通过连字成句才能描述一个完整的意思。而机器对由词组成的藏文句子必须通过藏文分词才得以理解。,基于web的藏文文本自动分类需要特征选择,就需要藏文的分词。藏文分词比之汉文分词要复杂和困难的多。通过研究现有的汉英文分词算法,提出符合藏文特征的最正确分词方案。,研究藏文编码识别与转换中的关键问题,实现各种藏文编码的统一。,5.研究特征项选择及权值计算算法,基于web的藏文文本分类中,特征的选择以及特征赋权是影响文本分类效果的一个重要环节。如果把分词后的所有藏文词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大,在这样的情况下,要完成藏文文本分类几乎是不可能的。尽量减少要处理的单词数,降低向量空间维数。一般使用某种特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行上下排序,选取最高分的一些作为文本特征子集,以降低特征空间的维数,从而简化计算,提高分类工作的速度和效率。,经降低空间维数后得到的各个特征项,在藏文文本出现的位置不同,对藏文文本的重要程度和区分度是不同的,为了更准确地描述藏文文本中的重要性,需要计算特征在向量中的权重。一个特征项在某藏文文本中出现的次数越多,它和该文本的主题就越相关;而在不同的藏文文本中出现的次数越多,那么它区分不同文本的能力越弱。,三研究的重难点,重点:特征选择以及研究符合藏文特点的最正确分 类算法。,难点:1.特征选择。,2.分类器的设计。,四创新点,1.设计并实现符合藏文特征的最正确分类器。,2.研究并提出符合藏文文法结构的特征项提取算法。,四、研究的技术路线,五、本课题的研究方法,一交流法,在藏文文本分类技术研究过程中与专家保持密切的联系,随时沟通和接受专家的指导。,二文献研究法,收集国内外本课题相关献资料和藏文语法书籍,并学习和研究资料,从而全面地、正确地了解和掌握藏文文本分类要研究的问题。,三经验法,藏文文本分类器的设计涉及到的内容较多,如藏文网页的净化、藏文编码的识别与转换、藏文分词、特征选取及权值计算等,通过请教有经验的专家、学者,分析他们的实践经验,树立正确的指导思想。,四模拟法,通过研究汉英文文本分类的成果,创设一个符合藏文特征的文本分类模型。,六、论文工作方案,七、论文总体框架,第1章 绪论,1.1 研究背景及选题意义,1.2 国内外的研究现状,1.3 本文研究的内容,1.4 本文组织结构,第2章 基于web的藏文文本自动分类相关技术的研究,3.1 爬虫设计的实现,3.2 网页净化,3.3 藏文编码识别与转换,3.4 藏文分词,3.5 藏文文本分类体系,3.6 本章小结,第3章 藏文文本中特征选择方法研究,4.1 常用特征选择方法,4.2 特征降维实验,4.3 本章小结,第4章 藏文文本中权重计算方法研究,4.1 常用的权重计算公式,4.2 权重测试,4.3 本章小结,第5章 基于web的藏文文本自动分类系统的实现,5.1 分类系统的训练,5.1 分类系统中分类器的实现,5.3 本章小结,第6章 实验结果与分析,6.1 实验与结果,6.2 系统性能分析,第7章 结束语,7.1 总结,7.2 展望,参考文献,致谢,八、主要参考文献及出处,1 Michael Ekedahl著,马海军,杨继萍等译.Visual Basic.NET 程序设计高级教程M.清华大学出版社,2005年5月.,2 李晓明,闫宏飞,王继明.搜索引擎-原理、技术与系统M.科学出版社,2005年.,3 Lan H.Witten,Alistair Moffat,Timothy C.Bell著,梁斌译,深入搜素引擎海量信息的压缩、索引 和查询M.电子工业出版社,2021年6月.,4 Bing.Liu(著),俞勇(译).Web数据挖掘M,清华大学出版社,2021年4月1日.,5 俞士汶计算语言学概论M.商务印书馆出版,2003年9月.,6 毛尔盖桑木旦.藏文文法明悦M.青海民族出版社,2005年1月.,7 毛尔盖桑木旦.藏文文法概论M.青海民族出版社,2005年1月.,8 刘里.中文文本分类中特征描述及分类器构造方法研究J.重庆大学硕士学位论文,2006年4月.,9 张楠.基于web的中文文档自动分类的研究与实现J.哈尔滨理工大学硕士学位论文,2007年3月.,10 陈克利.大规模平衡语料的收集分析及文本分类方法研究J.中国科学院研究生院硕士学位论文,2004年6月.,11 刘辉,邵良杉.Web 文本分类中特征项权重的研究J.科技和产业,第10卷,第2期,2021年2月.,12 周茜,赵明生.中文文本分类中的特征选择研究J.中文信息学报,第18 卷,第3 期.,13 王倩.中文文本分类的研究J.北京化工大学硕士学位论文,2007年6月.,14 杜卫锋.粗糙集理论在中文文本分类中的应用J.西南交通大学研究生学位论文,2006年4月.,15 程军.基于统计的文本分类技术研究J.中国科学院研究生院博士学位论文,2003年5月.,16 薛德军.中文文本自动分类的关键问题研究J.清华大学工学博士学位论文,2004年4月.,17 张美香.贝叶斯文本分类器的研究与改进J.太原理工大学学位论文,2004年4月.,18 周钦强.基于人工智能技术Nave Ba