第10讲自然语言理解课件-

,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,第10讲自然语言理解,自然语言与自然语言理解,自然语言理解的层次模型,汉语的特点及汉语理解面临的困难,自然语言理解的应用,1,第10讲自然语言理解自然语言与自然语言理解1,第一节自然语言与自然语言理解,自然语言：是指人类种族集团的本族语言，是我们日常使用的语言,八大语系,汉藏语系、印欧语系、亚非语系、阿尔泰语系、乌拉尔语系、尼日尔-刚果语系、马来-玻里尼西语系和德拉维达语系。,5600多种不同的语言和方言,使用人口最多的语言有汉语、英语、俄语、日语、法语和德语等。,自然语言是相对于人工语言（程序设计语言）而言的。,语言是思维的载体，是人际交流的重要工具。,2,第一节自然语言与自然语言理解自然语言：是指人类种族集团,自然语言理解（计算语言学）是人工智能领域的重要分支，也是一个极其活跃的研究领域,什么是“理解”？,从微观上来说，理解是指从自然语言到机器内部表示之间的一种映射,从宏观上讲，理解是指能够完成我们所希望的一些功能,自然语言理解分为两个方面：,书面语理解,和,口语理解,书面语理解,将文字输入计算机,计算机识别和理解文字、词、短语、句子、段落和篇章,按指定的目标作出相应的回答或反映,3,自然语言理解（计算语言学）是人工智能领域的重要分支，也是一个,口语理解,用口语对计算机讲话,计算机识别和理解语音输入，把语音流变换为文字流,然后按书面语理解,最后利用语音合成将回答转换成声音输出,美国认知心理学家,G.M.Ulson,提出判别计算机是否理解自然语言的四条标准：,问答：能够回答与输入语言材料有关的问题,文摘：能够对所给的语言材料进行文摘,释义：能用不同的词语复述所给的语言材料,翻译：具有将语言材料转译成另一种语言的能力,计算机只要达到了以上标准的一条，就可以说它能够理解自然语言,4,口语理解4,计算机理解自然语言是极其困难的，因为不仅要有相应的,语言学知识,，而且还要有,领域知识,和,上下文信息,困难主要体现在各级语言单位与其语义之间的映射关系多种多样,一对一、多对一、一对多、多对多,如果计算机能够理解自然语言，人-机间的信息交流将能够以人们熟悉的本族语进行。,创造和使用自然语言是人类高度智能的表现，对自然语言理解的研究有助于揭开人类智能的奥秘，深化我们对语言能力和思维本质的认识。,5,计算机理解自然语言是极其困难的，因为不仅要有相应的语言学知识,自然语言理解研究的发展,以,关键字匹配,为主流的早期历史（1950-1960年代）,五六十年代开发的自然语言理解系统主要依靠关键字匹配技术来识别输入句子的意义，而不是真正意义上的理解。,系统中事先存放了大量,包含关键字的模式,，每个模式都和一个解释相对应。,待理解句子输入系统，系统将句子与模式逐个匹配，一旦匹配成功便立刻得到对应的解释。,如：人-机接口系统（列车数据库查询系统）,模式：经过吗？,解释：询问是否经过，执行查询指令，如,SQL,语句,问题：571次经过金华吗？,6,自然语言理解研究的发展6,以,句法-语义分析,为主流的中期历史（1970-1980年代）,句法分析,识别构成句子的各个成分以及它们之间的相互关系，例如确定每个动词的主语和宾语，以及每个修饰性的词或短语所修饰的成分。,分析结果一般是句子的一棵分析树。,语义分析,根据输入句子的句法结构和句中每个实词的词义推导出能反映这个句子意义的某种形式化表示。,结果可以是逻辑表达式、语义网络或其它一些复杂的数据结构。,7,以句法-语义分析为主流的中期历史（1970-1980年代）7,以走向,实用化,和,工程化,为特征的近期历史（1980-以后）,一批商品化的自然语言人-机接口和机器翻译系统出现在市场上。,1990年8月，13届国际计算语言学大会，首次提出了处理大规模真实文本的战略目标。,语料库语言学兴起，它顺应了大规模真实文本处理的需求，提出了以计算机语料库为基础的语言学研究及自然语言处理新思路。,8,以走向实用化和工程化为特征的近期历史（1980-以后）8,汉语机器理解研究的发展,1956年开始俄汉机译系统的研究，1959年完成，采用的技术主要是词对词翻译和模式匹配。,1978年后开始了真正意义上的汉语理解研究，经过二十几年的发展，在汉语的句法和语义分析、各级语言单位的语义表示与获取、歧义消解等方面都取得了进展，并建立了一批实验系统，其中一些系统已经实用化、商品化。,目前国内开展此项研究的单位,北京大学（俞士汶）,清华大学（黄昌宁、周明）,东北大学（姚天顺）,山西大学（刘开瑛、郭炳炎）,哈工大（王开铸）,微软中国研究院,9,汉语机器理解研究的发展9,第二节自然语言理解的层次模型,自然语言语言单位的构成是分层次的,对于汉语，分为以下几层：,字、词、短语、句、段落、篇章,自然语言理解应遵循单向依赖关系,任一较大语言单位的理解，必须在较小语言单位理解的基础上进行,较小语言单位的理解，必须在较大语言单位制约条件的限制下获得,自然语言理解应分层次，层层推进,10,第二节自然语言理解的层次模型自然语言语言单位的构成是分层,（自然语言理解的层次模型）,Ri,是第,i,层的规则系统,Fi,是第,i+1,层对第,i,层的制约条件,此模型分为五个层次,分词层、短语层、语句层、段落层、篇章层,11,（自然语言理解的层次模型）Ri 是第 i 层的规则系统11,分词层,把彼此间没有符号隔开的文字流（书面语）或语音流（口语）在规则,R1,的作用下，变换为一个个词组成的序列（词串），而词串的正确性受上一层制约条件的限制,如：“自然,|,语言,|,理解,|,是,|,人工智能,|,领域,|,的,|,重要,|,分支”,短语层,把词串中彼此孤立的词在规则,R2,的作用下，组成一个个词组，并得到词组的内部结构（词与词之间的关系，如主谓结构、动宾结构、偏正结构等）,12,分词层12,语句层,在规则,R3,的作用下，对语句进行句法分析和语义分析，得到语句的分析树和语句的语义表示,段落层,考察语句之间的关系，在规则,R4,的作用下，将语句序列组合成若干个段落,注意自然段和意义段的区别,篇章层,考察段落之间的关系，在规则,R5,的作用下，得到整个篇章的结构表示和机内语义表示,13,语句层13,第三节汉语的特点及汉语理解面临的困难,汉语不利于机器理解的几个特点,汉语在构词方法上主要是词根复合法，而不是词缀派生法，缺乏形态标记，主要以虚词和语序表示各种语法关系。,词类与句法成分之间不存在一一对应的关系，如谓语可由名词、动词或形容词充当，而形容词又可作谓语、定语和状语等。,汉语语法有重“意合”，轻形式，以意驭形的特点，使得句法分析和语义分析往往不能相对独立，只有二者同时或交叉进行才能取得好的效果。,14,第三节汉语的特点及汉语理解面临的困难汉语不利于机器理,在汉语中，不仅主宾语可以省略，谓语动词可以省略，甚至定语和定语中心词也可以省略，因而汉语的理解特别强调对语境知识的利用。,汉语各个分析层面上的歧义现象非常严重。,语音识别时的同音字,句子的歧义切分,词法分析时的多义词和兼类词,句法分析时的同形异构,语义分析时的语义组合层次歧义和语义组合关系歧义,15,在汉语中，不仅主宾语可以省略，谓语动词可以省略，甚至定语和定,语音识别的困难,同音字,如：,施氏食狮史（赵元任）,石室诗士施氏嗜狮，誓食十狮，氏时时适市视狮。十时，氏适市，适十狮适市。是时，氏视是十狮。恃十石矢势，使是十狮逝世，氏拾是十狮尸适石室。石室湿，使侍试拭石室。石室拭。氏始试食是十狮尸。食时，始识是十狮尸实石十狮尸。是时，氏始识是实事实。试释是事。,16,语音识别的困难16,歧义切分,如：唐代杜牧“清明”诗七绝,清明时节雨纷纷，路上行人欲断魂；,借问酒家何处有，牧童遥指杏花村。,改写为词：,清明时节雨，,纷纷路上行人，,欲断魂。,借问酒家何处？,有牧童，,遥指杏花村。,改写为剧本：,清明时节雨纷纷,路上,行人欲断魂：借问酒家何处有？,牧童遥指：杏花村！,17,歧义切分改写为词：改写为剧本：17,词切分中的歧义,固有歧义：根据不同语境所出现的分词歧义,例：（1）,物理学,是一门基础科学。,物理学,起来很难。,例：（2）,将来,的上海将有严重的污染。,他,将来,上海。,组合歧义：本身并不组成一个词，在不同语境下，产生不同的组合切分,例：他,的确切,地址在这儿。,这块肉,的确切,得不错。,18,词切分中的歧义18,词的歧义,词性歧义：一个词有多种词性（兼类）,例：汉语,学习,十分重要。（名词）,他们努力,学习,汉语。（动词）,词义歧义：一个词有多种词义,例：,红,花。（红颜色的）,红,军。（革命的）,结构歧义,即词组成词组乃至句子时，由于其组成的词或词组间可能存在不同的语法或语义关系而出现的（潜在）歧义现象。,19,词的歧义19,（1）“,VP+,的+是+,NP”,型歧义结构,例：“反对的是少数人”,（2）“,N1+N2+N3”,型歧义结构,例：“北欧语言研究会”,（3）“,ADJ+N1+N2”,型歧义结构,例：“小学生词典”,（4）“,VP+N1+,的+,N2”,型歧义结构,例：“咬死了猎人的狗”,（5）“,VP+ADJ+,的+,N”,型歧义结构,例：“喜欢干净的小孩”,等等,20,（1）“VP+的+是+NP”型歧义结构20,指代和省略中的歧义,指代歧义：指代词（如我、你、他等）和代词词组（如“这一点”，“那件事”等）所指的事件可能存在歧义。,例：老师给大家讲了一个动人的故事，,这,使大家很激动。,省略歧义：自然语言中，经常有省略，该省略的不省略反而显得罗嗦，但有时也会由此产生歧义。,例：他说（,得,/,他,）不清楚。,21,指代和省略中的歧义21,第四节自然语言理解的应用,自然语言人机接口,例：数据库汉语查询接口,WTCDIS（,北京信息工程学院软件研究中心）,用自然语言查询学生信息,（1）请给出来自湖北的学生名单。（祈使句）,（2）哪些学生来自湖北？（疑问句）,（3）请问来自湖北的学生有哪些？（祈使疑问句）,（4）来自湖北的学生名单。（省略句）,（5）找出所有这样的学生：他们来自湖北。（复合句）,一次查询处理的系统流程见下图：,22,第四节自然语言理解的应用自然语言人机接口22,（查询处理流程图）,23,（查询处理流程图）23,机器翻译与机助翻译,（机器翻译示意图）,24,机器翻译与机助翻译（机器翻译示意图）24,机器翻译的困难：,词的多义性：源语言可能一词多义，而目的语言要表达这些不同的含义需要使用不同的词汇。,文法的多义性：对源语言中合乎文法规则但有多义的句子，其每一可能的意思均可在目标语言中用不同的文法结构来表达。,头语重复引用：源语言中的一个代词可指多个事物，但在目的语言中要有不同的代词，正确地选用代词需要了解其确切的指代对象。,成语：必须识别源语言中的成语，它们不能直接按字面意思翻译成目的语言。,25,机器翻译的困难：25,自动文摘,就是利用计算机自动地从原始文献中提取文摘。,文摘是准确全面地反映某一文献中心内容的简洁连贯的短文。,自动文摘的主要方法：,自动摘录：计算词频和句子的权重，确定权重最高的若干句子作为文摘内容，并按顺序输出。（最简单）,基于理解的自动文摘：利用语言学知识获取语言结构，利用领域知识进行判断、推理，得到文摘的意义表示，最后从意义表示中生成摘要。（理想情况）,信息抽取：,（1）定义文摘框架，它以空槽的形式提出应从原文中获取的各项内容。,（2）利用特征词从文本中抽取相关的短语或句子填充文摘框架。,信息抽取与基于理解的自动文摘相比只对有用的文本片段进行有限深度的分析，其效率和灵活性显著提高。,26,自动文摘26,（一个自动文摘系统的框图）,27,（一个自动文摘系统的框图）27,Web上的智能搜索引擎,（搜索引擎结构框图）,28,Web上的智能搜索引擎（搜索引擎结构框图）28,

最新DOC

最新PPT

最新RAR