,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2019-8-28,谢谢观赏,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2019-8-28,谢谢观赏,*,词典,1,谢谢观赏,2019-8-28,词典1谢谢观赏2019-8-28,词典与词典编撰的研究,词典学,lexicology,Theory and description of lexical information,计算词典学,computational lexicology,formal modelling of lexical information,词典编撰学,lexicography,Construction of dictionaries(databases,handbooks),计算词典编撰学,computational lexicography,construction and production of dictionaries using electronic publishing,2,谢谢观赏,2019-8-28,词典与词典编撰的研究词典学lexicology2谢谢观赏20,机读词典与人读词典,人读词典(,Human Readable Dictionary,),格式不规范,数据完整性和一致性不好,非结构化,机读词典(,Machine Readable Dictionary,),格式规范,数据完整性和一致性较好,结构化,3,谢谢观赏,2019-8-28,机读词典与人读词典人读词典(Human Readable D,机读词典的分类,按信息类型分类,语法词典,语义词典(包括同义词典),双语词典,按领域分类,通用词典,专业词典(术语词典),专名词典,4,谢谢观赏,2019-8-28,机读词典的分类按信息类型分类4谢谢观赏2019-8-28,人读词典(,demo,),金山词霸,story,中古英语,storie,古法语,estoire,拉丁语,historia,n,-ries,(1),故事,小说;传闻;轶事,Please read us a story!,请给我们读个故事!,(2),谎话,假话,(3),(书籍、电影、戏剧等的)情节,(4),(报刊、杂志文章的)素材,题材,5,谢谢观赏,2019-8-28,人读词典(demo)金山词霸5谢谢观赏2019-8-28,汉语语法信息词典,开发单位:北京大学计算语言学研究所,参考文献:,俞士汶等(,1998,),现代汉语语法信息词典详解,,清华大学出版社、广西科学技术出版社,1998,年版。,规模:,7,万多词条,总库,词性库,名词时间词处所词方位词数词量词区别词代词动词形容词状态词副词介词连词助词语气词前接成分后接成分成语简称略语习用语语素标点符号,词性分库,动词代词,6,谢谢观赏,2019-8-28,汉语语法信息词典开发单位:北京大学计算语言学研究所6谢谢观赏,新华社词语数据库,全库分为中文和外文两个大类,主要包括中文新闻库、经济信息库、证券库、人物库、组织机构库、专题资料库等中文数据库,还包括,Xinhua News Bulletin,、,Whos Who in China,等英文数据库。共有,28,个库,100,多个子库,数据量达,80,多亿汉字,并以日均,150,万汉字的速度增长。,7,谢谢观赏,2019-8-28,新华社词语数据库全库分为中文和外文两个大类,主要包括中文新闻,新华社词语数据库,国际组织,“,年问题”联合委员会,/joint year 2000 council/International,“,”运动,/movement april 19/Colombia,“,阿尔法”,/alpha 66/Cuba,“,俄罗斯地区”社会联盟,/regions of russia group/Russia,“,法中年”协会,/france-china association for the year 2000/France,“,繁荣”党,/prosperity/Russia,“,光明的日本”国会议员联盟,/parliamentary union for a bright japan/Japan,“,基地”组织,/al qaeda/Saudi Arabia,财富,杂志,/fortune/USA,朝日新闻,/asahi shimbun/Japan,国际献血组织联合会,/international federation of blood donor organizations/International,国际宪法学协会,/international association of constitutional law/International,国际香料集团,/international spice group/International,经济和外贸部,/ministry of economy and external trade of syria/Syria,经济和外贸部,/ministry of economy and foreign trade of egypt/Egypt,8,谢谢观赏,2019-8-28,新华社词语数据库国际组织“年问题”联合委员会/jo,知网(,Hownet,),1,作者:董振东董强,网站:,http:/,概念描述举例,NO.=017144,W_C=,打,G_C=V,E_C=,网球,,牌,,秋千,,太极,球,得很棒,W_E=play,G_E=V,E_E=,DEF=exercise|,锻练,sport|,体育,其中,DEF,是核心,采用特定的“知识描述语言”,9,谢谢观赏,2019-8-28,知网(Hownet)1作者:董振东董强9谢谢观赏2019-8,知网(,Hownet,),2,打,017144 exercise|,锻练,sport|,体育,男人,059349 human|,人,family|,家,male|,男,高兴,029542 aValue|,属性值,circumstances|,境况,happy|,福,desired|,良,生日,072280 time|,时间,day|,日,ComeToWorld|,问世,$congratulate|,祝贺,写信,089834 write|,写,ContentProduct=letter|,信件,北京,003815 place|,地方,capital|,国都,ProperName|,专,(China|,中国,),爱好者,000363 human|,人,*FondOf|,喜欢,#WhileAway|,消闲,必须,004932 modality|,语气,串,015204 NounUnit|,名量,&(grape|,葡萄,),&(key|,钥匙,),从良,016251 cease|,停做,content=(prostitution|,卖淫,),打对折,017317 subtract|,削减,patient=price|,价格,commercial|,商,(range|,幅度,=50%),儿童基金会,024083 part|,部件,%institution|,机构,politics|,政,#young|,幼,#fund|,资金,(institution|,机构,=UN|,联合国,),10,谢谢观赏,2019-8-28,知网(Hownet)2打 017144 exercise|,知网(,Hownet,),3,义原总数:,1500,多个,义原分类:共,8,类,基本义原,事件、实体、次要特征,属性、属性值、数量、数量值,语法义原:描述语法特征,如,POS,语法,关系义原:描述意义关系,类似于格关系,动态角色,动态属性,11,谢谢观赏,2019-8-28,知网(Hownet)3义原总数:1500多个11谢谢观赏20,知网(,Hownet,),4,义原的上下位关系构成树结构,-entity|,实体,thing|,万物,physical|,物质,animate|,生物,AnimalHuman|,动物,human|,人,humanized|,拟人,animal|,兽,beast|,走兽,12,谢谢观赏,2019-8-28,知网(Hownet)4义原的上下位关系构成树结构12谢谢观赏,知网(,Hownet,),5,13,谢谢观赏,2019-8-28,知网(Hownet)513谢谢观赏2019-8-28,同义词词林,1,梅家驹等,,1983,,上海辞书出版社,为克服写作和翻译时的词穷现象而编写,目前广泛应用于自然语言处理中,收词近,7,万(按义项统计),按义项编排,12,大类,94,中类,1428,小类,3925,词群,词群内部的词是同义词,大类、中类、小类之间不一定是上下位关系(有些是领域),14,谢谢观赏,2019-8-28,同义词词林1梅家驹等,1983,上海辞书出版社14谢谢观赏2,同义词词林,2,大类:,A,中类:,g,小类:,10,词群:,01,最小同义词集:,01,,,02,,,03,15,谢谢观赏,2019-8-28,同义词词林2大类:A15谢谢观赏2019-8-28,WordNet 1,网址:,开发单位:,普林斯顿大学心理语言学实验室,初衷是作为研究人类词汇记忆的心理语言学成果,在自然语言处理中得到广泛的应用,免费的在线词汇数据库,世界很多语种都开发了相应的版本,各种欧洲语言:,EuroNet,汉语:,CCD,(,Chinese Concept Dictioanry,),16,谢谢观赏,2019-8-28,WordNet 1网址:16谢谢观赏2019-8-28,WordNet 2,同义词集,Synset,用一组同义词的集合,Synset,来表示一个概念,每一个概念有一段描述性的说明,关系,上下位关系(,hyponymy,,,troponymy,),同义反义关系(,synonymy,,,antonymy,),部分整体关系(,entailment,,,meronymy,),17,谢谢观赏,2019-8-28,WordNet 2同义词集Synset17谢谢观赏2019-,Wordnet 3,规模,名词:,80,000 words,60,000 synsets,形容词:,16,000 synsets,动词:,11,500 synsets,还在不断发展之中,18,谢谢观赏,2019-8-28,Wordnet 3规模18谢谢观赏2019-8-28,WordNet 4,名词概念的组织,19,谢谢观赏,2019-8-28,WordNet 4名词概念的组织19谢谢观赏2019-8-,WordNet 5,形容词概念的组织,20,谢谢观赏,2019-8-28,WordNet 5形容词概念的组织20谢谢观赏2019-8,词典检索算法1,词典检索算法的性能评价,时间复杂度,空间复杂度,检索方式,直接用词语检索,检索句子中某个位置开始的所有词,检索句子中某个位置开始的最长词,模糊检索,增量式索引,21,谢谢观赏,2019-8-28,词典检索算法1词典检索算法的性能评价21谢谢观赏2019-8,词典检索算法,2,两个问题,索引结构,查找算法,一种索引结构可以对应不同的查找算法,22,谢谢观赏,2019-8-28,词典检索算法2两个问题22谢谢观赏2019-8-28,词典顺序索引,23,谢谢观赏,2019-8-28,词典顺序索引23谢谢观赏2019-8-28,词典顺序索引的查找算法,整词二分查找,时间复杂度,O(log,2,N),无法按前缀查找,改进的整词二分查找,时间复杂度,O(log,2,N),可以实现按前缀查找,24,谢谢观赏,2019-8-28,词典顺序索引的查找算法整词二分查找24谢谢观赏2019-8-,词典散列索引,25,谢谢观赏,2019-8-28,词典散列索引25谢谢观赏2019-8-28,词典散列索引的检索算法,利用散列(,hash,)函数直接定位,效率高:常数,不能按前缀查找