单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,计算机辅助翻译系统漫谈,陈群秀,清华大学计算机科学与技术系,智能技术与系统国家实验室,北京 100084,摘要 本文首先简单介绍机器翻译研究发展简史和研究动向。然后本文阐述机器翻译系统的分类及特点:机器翻译系统从系统研制的方法分为基于规则的机器翻译系统和基于语料库的机器翻译系统,后者又分为基于统计的机器翻译系统、基于实例的机器翻译系统和翻译记忆系统;从自动化程度分为全自动机器翻译系统、人助机译系统和机助人译系统,后两种合称为计算机辅助翻译系统;从翻译转换方式分为直译式系统、基于转换方式的翻译系统和基于中间语言(枢轴式)的翻译系统;从翻译用户的需求分为为浏览者研制、为修订者研制、为翻译者研制和为写作者研制的系统等四种类型。进而本文提出机器辅助翻译系统最好同时包含基于翻译记忆技术和基于实例模式翻译这两种翻译功能并且这两种翻译方法和翻译过程最好分阶段进行。最后本文对基于翻译记忆技术的辅助翻译有关技术和基于实例模式翻译的有关技术进行了讨论。,关键词 计算机辅助翻译系统;机器翻译系统的分类及特点;基于翻译记忆技术的辅助翻译有关技术;基于实例模式翻译的有关技,机器翻译研究发展简史和研究动向,随着因特网的日益普及应用和全球一体化日益进展,不同语种间人们交流的语言障碍日益显得更为突出。为解决这一难题而进行的机器翻译研究是一个涉及语言学、计算机科学、认知科学等多学科的综合性研究领域。目前,机器翻译研究是国际上激烈竞争的高科技研究领域之一,也是信息处理的实用学科。机器翻译研究是,1946,年计算机产生后的第一个应用。机器翻译研究自,1947,年美国洛克菲勒基金会自然科学部主任华伦,韦弗提出用现代电子计算机进行语言翻译的设想至今,已有五十多年近六十年的历史,它的发展历史波波折折、起起复复。它经历过最初近二十年的初创期和第一个兴旺期,但由于当时人们对机器翻译的期望值过高,而机器翻译当时的研究水平和技术的历史局限,也因为当时的大学科人工智能研究没抓住本质而又头脑发热盲目乐观,致使人工智能和机器翻译的研究进入了低谷期,即机器翻译自,1966,年美国发表了,ALPAC,报告(黑皮书)后经历了,1966,年,1976,年长达十年的萧条低迷期。到二十世纪七十年代中期机器翻译研究才开始逐渐复苏并进入了第二个兴旺期。特别是八十年代以来,机器翻译研究得到了长足的发展,进入了发展的黄金时代。这个时代有四个显著特点:,(1)机器翻译研究走出实验室开始进入实用阶段。,这个阶段相继出现了一些实用型的机器翻译系统,例如美国的SYSTRAN系统(1975年)、加拿大蒙特利尔大学的TAUMMETEO系统(1976年)、日本富士通公司的ATLAS系统、法国纺织研究所的TITUSIV系统(翻译编织专业文摘)等。机器翻译研究面向应用、走向应用、迈向商品化,同时又以应用推动更高层次的研究,是这一时代最主要的特点。,(2)电子和软件产业部门直接卷入机器翻译研究是这个时代的第二个特点。产业部门的直接卷入对机器翻译研究发展产生深远的影响。,(3)国际间的交流与合作十分活跃是这个时代的又一特点。,国家政府间的合作、民间组织间的合作形式都有。国家间的合作主要有欧洲共同体EUROTRA计划和亚洲由日本政府支持的ODA计划。EUROTRA计划开始于1978年,主要目的在于开发一个能处理欧洲共同体成员国语言的机器翻译系统,当时就投入4000万美元,参加的国家有法国、德国、比利时、丹麦、荷兰、希腊、爱尔兰、意大利、卢森保和美国,大约有100多名的研究人员。ODA计划是由日本通产省发起和资助、由日本国际情报协力中心CICC组织、有中国、泰国、马来西亚和印度尼西亚参加的机译合作计划,开始于1987年,预定1992年完成(实际1993年结束),政府投资60亿日元,翻译策略为中间语言表示和概念词典。,(4)加速吸收和采用新理论和新技术是这个时代的第四个特点。,机器翻译研究虽然进入了全面发展的黄金时代,但仍然面临着重重的困难,困难归困难,但因机器翻译的市场是巨大的,前景也是远大的,因此各个国家对机器翻译研究的兴趣正在持续增长,特别是日本,热情有增无减。全世界从事机器翻译的研究人员有几千人,其中日本就将近占了一半。机器翻译面临一些严峻问题,例如,机器翻译系统的译准率长期徘徊在70%左右(大规模真实语料文本下更低),译文的可读性、系统对语言现象的覆盖面、系统的鲁棒性尤其是开放性都不尽人意。社会迫切需要对真实文本(尤其是网上海量文本)进行大规模的处理,而机器翻译系统同当今社会对大规模真实文本处理的期望相差甚远。机器翻译系统的译准率和译文可读性(可理解度,可懂度)之所以不尽人意是因为在翻译过程中存在着下列问题:源文句子分析时语法结构和语义结构存在歧义;多义词在不同语境中存在译词选择问题;译文生成时存在介词、助词的多义选择问题;译文生成时还存在性、数、格一致性问题、时态、语态、语气、尊称选择问题和符合母语语言习惯、语序选择问题;代词指代问题、相关词照应问题、省略成分复原问题,等等。,目前,机器翻译研究领域有几个研究动向值得注意:,(1)为解决机器翻译系统面临的重重困难,采用多种翻译分析策略、多种翻译方法的结合是当前机器翻译研究的动向和前沿性研究;,现有基于规则的翻译技术和基于语料统计的翻译技术各有其不足之处,考虑到语言的规律性和重复性,一些研究者又提出了一种基于翻译记忆技术的机器翻译方法,即利用先验的或者人机交互过程中生成的翻译记忆,实现对输入文本的翻译,例如欧共体(德国TRADOS公司)开发的“Trados Translators workbench”系统、美国的CMU大学研究开发的Pangloss系统等,并已取得了很好的效果。不过由于它们是基于例子的完全匹配,有下面三方面的问题:一方面这种例子库无法包容所有的现实自然语言句子;另一方面由于例子的适应性不强,如要使这种例子库具有一定的语言现象覆盖面的话,势必会使例子库非常庞大,并且细微差别不能够有效泛化,冗余度很大;第三方面是例子库的译文构造基本局限在模式匹配的语言处理层次上,译文近似构造能力很低。但是基于实例模式库的基于实例的翻译方法则能克服以上问题,是对基于简单翻译记忆方法的改造和完善。实际上现在很多机器翻译系统或研究基本上都是采用基于规则翻译方法和基于语料库翻译方法相结合,形成一种研究的潮流和动向。,(2)在机器翻译系统中实现参数化,这也是现在机器翻译系统的一个发展方向和新动向。,为了提高机器翻译的译文质量,有效的方法是将通用的机器翻译系统进行专一领域化(可在很大程度上提高机器翻译系统的翻译质量),而专一领域化又必须对每一个领域构造不同的专业领域词典加上通用词典,这就必须花费巨大的人力、物力和时间。为了既能对机器翻译系统实现专一领域化而又不必对每一个领域构造不同的专业领域词典,对机器翻译系统实现参数化是一种解决办法。参数化的机器翻译系统有一个翻译核心,而且只有一套词典和一套语法规则,但在模型的建立中设置了很多的参数。对于不同领域的需求,参数化的机器翻译系统采用自动学习的方法来调整参数的设置,以达到符合这个领域的要求。台湾清华大学的苏克毅教授与英群公司研制的英汉机器翻译系统ARCHTRAN(采用ATN、RULE、统计方法三结合),1989年5月完成,一直为IBM、HP、SUN等公司翻译手册。苏克毅教授的英汉机器翻译系统中实现了参数化。,国内翻译软件市场上的商业软件主要有词典类软件和翻译类软件两种。前者包括金山词霸、东方快车、华建词海等产品,后者包括华建网上通系列、铭泰公司的东方快译系列、金山公司的金山快译、IBM的翻译家和中软公司的译星系列等全文翻译软件。华建机器翻译有限公司的IAT系统(单板版和局域网络版)、德国TRADOS公司的TRADOS系统(在英语类国家中市场占有明显领先地位,有60多个国家)、北京雅信诚软件公司的雅信CAT系统(按设定的匹配率给出参考译文)则是辅助翻译类的产品代表。,2.机器翻译系统的分类及特点,从机器翻译系统研制的方法来分,机器翻译系统可以分为如下类型:,(1)基于规则的机器翻译系统(Rule-Based MT system,简称RBMTS):它是根据专家的知识归纳的语言的规则设计的机器翻译系统。基于规则翻译方法在机器翻译界一直占有主导地位,直到今天仍发挥着重要作用,现在有影响的MTS都是基于规则的。,(2)基于语料库的机器翻译系统(Corpus-Based MT system,简称CBMTS):它是根据从语料库中获取的统计数据或者语言实例来设计的机器翻译系统。基于语料库方法的MTS通常称为第三代MTS。基于语料库的机器翻译系统还可以进一步再分类,分为如下三种类型:,a基于统计的机器翻译系统(Statistic-Based MT system,简称SBMTS):它是根据从语料库中获取的统计数据来设计的机器翻译系统。统计机器翻译的数学模型是由IBM公司的Brown等人提出的(1990,1993),它包括语言模型和复杂程度递增的5种翻译模型(数学模型),简称IBM Model 15。IBM公司的,英法机译系统Candide在统计机器翻译方法上做出了有益尝试。,b基于实例的机器翻译系统(Example-Based MT system,简称EBMTS):它是根据从语料库中获取的语言实例来设计的机器翻译系统。基于实例翻译方法最早是由日本著名的机器翻译专家长尾真1984年提出的,其基本设想是不通过深层的分析,仅仅利用已有的翻译经验知识,通过类比原理进行翻译。日本京都大学的英日实验系统MBT2在基于实例翻译方法上做出了有益尝试。,c翻译记忆系统(Translation Memory MT system,简称TMMTS):它是能够保存和重复使用翻译工作者已经翻译好的译文的翻译系统。翻译记忆软件在内容修订和更新的全过程中能保存和重复使用译文。如果有新的资料需要翻译,可以使用原来存储在翻译记忆中的译文,重复使用原来的译文。关于翻译记忆机制的设想,最早提出这一想法的是Peter Arthern(1978)。他指出:如果能在线检索已有的、相似文档的译文,翻译人员就能从中获得很大的帮助。他还主张开发一个程序,让系统记住已经翻译过的文本,新文本输入后系统检查“记忆库”,找到相似的文本并输出其译文。翻译记忆技术系统产品包括Transit(STAR)、Translation Manager(IBM)、Optimizer(Eurolang)、Translators Workbench(Trados)、TransPro(TranPro)、WorldLingo等。,从机器翻译系统的自动化程度来分,机器翻译系统可以分为如下类型:,(1)全自动机器翻译系统(Full Automatic MT system,简称FAMTS):它是由计算机全部自动地进行翻译的机器翻译系统。,(2)人助机译机器翻译系统(Human-Assisted MT system,简称HAMTS):它是由人来辅助计算机进行翻译的机器翻译系统。可以通过译前编辑对于要翻译的原文进行加工,使之适合机器翻译系统的要求,或者通过译后编辑对于翻译好的译文进行修改,使之满足用户的需要。,(3)机助人译机器翻译系统(Machine-Assisted MT system,简称MAMTS):它是由计算机辅助人来进行翻译的机器翻译系统。例如,人可以使用计算机来查询词典,修改译文错误等。,这后两种翻译系统合称计算机辅助翻译系统。,从翻译转换方式和翻译过程来分,机器翻译系统又可以分为以下三种类型:,(1)直译方式和直译式系统(Driect Translation MTS,简称DTMTS):它是以直接翻译方法为基础的第一代机器翻译系统。直译法的基本原则是把原语的词或句子替换成相应的译语的词或句子,必要时对译文词序进行适当的调整。早期的MTS主要采用直译式的翻译模式。,(2)基于转换翻译方式和基于转换方式的机器翻译系统(Transfer B