基于语料库的机器翻译的现状与前景

发布时间:2020-03-16 阅读数:428

钟媛媛延宏

摘要：文章主要介绍了两种基于语料库的机器翻译方法：基于实例的机器翻译方法以及基于统计的机器翻译方法。前者强调从计算机的角度通过实例推理的手段得到译文，后者侧重于从数学角度建立模型进行翻译。两种翻译方法各有优缺点，文章认为基于语料库的机器翻译的前景：将不同的翻译方法取长补短，互相融合，发展多策略融合式机器翻译方法，同时加强基于语料库的机器翻译方法与其它学科的融合。

关键词：语料库;机器翻译;基于实例的机器翻译方法;基于统计的机器翻译方法;前景

20世纪90年代，计算机技术与语料库的建设取得了长足的发展。语料库的作为一种科学的研究方法被引入翻译这一领域，标志着机器翻译的发展进入一个新纪元。国外关于语料库机器翻译的研究大多具有很强的实践指导性，我国基于语料库的机器翻译研究主要是以研究型的探索为主。目前与语料库机器翻译相关的研究已经进入非常具体，专业的细微领域。文章首先介绍了与机器翻译相关的语料库，基于规则的机器翻译以及基于语料库机器翻译的两种方法，对这些方法的优缺点分别进行了总结，旨在为研究者呈现一个清晰的语料库机器翻译相关知识的概括和总结，最后，作者指明了语料库机器翻译的前景，以期為后来研究者提供借鉴。

一、语料库与机器翻译

（一）语料库

语料库是指根据一定的语言学原则的指导，通过随机抽样的方法，收集未经过任何加工的连续的语言文字运用文本或者语音片段，在此基础上建成的一个容量相当的大型电子文库。目前，语料库在语言教学，语言研究以及语言工程等方面获得了广泛的应用，具体的应用领域主要有语言频率统计，词典编纂，词汇搭配研究，语言教学以及自然语言处理等。

（二）机器翻译和基于规则的机器翻译方法

机器翻译是利用计算机技术的辅助，将一种以一种语言形式存在的声音或者文字转化为以另一种语言形式存在的文字和声音（文章主要探讨的是机器翻译的文字翻译方面）。60年代初，随着乔姆斯基的“转换生成语法”理论的建立，机器翻译系统得到迅速发展，也叫做基于规则的翻译方法。基于规则的机器翻译的工作原理是：对输入的源语言进行格式保留处理以及分析，对源语言进行转换，最后根据目标语的生成规则生成目标语。基于规则的机器翻译的优点是规则可以描述语言的语法构成，方便计算机识别。但是，语法规则的得出需要大量的人力与物力。其次，语法规则由语法学家总结得到，不同的语言学家对语法规则的认识可能存在冲突。

除了某些特定的领域，基于规则的机器翻译取得了相对较好的效果。但是，机器翻译依旧没有达到人类想要的效果。随着语料库语言学的不断发展，人们逐渐引入了基于实例和基于统计这两种与语料库的应用密切结合的翻译方法。基于语料库的机器翻译迅速发展，取得了巨大成绩。

二、基于语料库的机器翻译

（一）用于机器翻译的语料库

语料库依据不同的标准可以分为不同的类别。与翻译研究相关的语料库有三类：平行语料库，可比语料库和多语语料库。

平行语料库收集了某种语言的原文本，以及该语言翻译成另外一种语言的目标语言文本。可比语料库收集了某种语言的原文，以及从其它语言翻译成该语言的文本。多语语料库收集两个或者多个单语种语料，由这些语料组成复合语料库。

（二）基于语料库的机器翻译方法

机器翻译方法分为基于规则的翻译方法和基于语料库的翻译方法。基于语料库的翻译方法又可以分为基于实例的翻译和基于统计的翻译。它们的区别在于：前者语料库会作为一种翻译知识参与翻译，供翻译主体查询。后者语料库的是用来寻找最有可能成为目标语的句子，不进行具体的翻译实践。

（1）基于实例的机器翻译方法

基于实例的机器翻译方法最早是由日本著名机器翻译专家长尾真（Nagao Makoto）提出来的。他通过研究日本英语初学者翻译句子的过程归纳总结了机器翻译的基本原则。他认为人类在翻译过程中，并不会进行深层的语言学分析，而是会在已经形成的知识库中尽可能寻找与需要翻译的句子相似的结构，通过类比的手段，得到目标语的译文。将这一思想运用到机器翻译中的表现就是：给出待翻译的句子S，在双语语料库中寻找与待翻译句子最相似的句子V，V的译文T就是S的译文。在这一翻译的过程中，起基础性作用的一个大型的双语语料库。翻译过程中的相似度计算是决定翻译质量的重要因素。

基于实例的机器翻译方法主要有三种类型：完全实例，实例句型转换的翻译以及实例近似翻译。

就基于实例的这一翻译方法而言，当前主要存在的技术方面的问题：在词汇与短语对齐层次中，如何避免歧义实现正确的对齐;在寻找最相似实例层次中，如何计算相似度，找到最相似，最恰当的实例;如何将已经寻找到的实例片段进行有效的组合形成译文;如何提高翻译实例的覆盖率等。

（2）基于统计的机器翻译方法

基于统计的机器翻译方法第一次提出是由IBM研究者于1990年左右提出来的。从2002 年开始，美国国家标准技术研究所（NIST）在美国ARPA的支持下开始开展一年一度的机器翻译测评工作，基于统计的机器翻译方法遥遥领先于传统的基于规则的翻译方法。最近几年，基于统计的机器翻译方法发展迅速，逐渐成熟。

基于统计的机器翻译方法的中心思想：认为目标语中的任何一个句子都有可能是源语言的译文，而唯一的不同就是它们成为源语言译文的概率不同，机器翻译的任务就是通过计算找出概率最大的句子。这一方法是通过对数据库的分析对比将知识抽象成模型，根据统计模型来寻找最恰当的译文。

基于统计的机器翻译方法一共包含两种模型：翻译模型和语言模型。翻译模型是用来计算将源语言翻译成目标语的概率，也就是计算一个指定的语言串翻译成为另一个语言串可能性。而后者是用来计算已经翻译好的译文可能出现在目标语中的概率，也就是计算译文语言串在目标语中存在的合理性。

基于统计的机器翻译方法中统计模型是直接从语料库中获取的，无需人工总结，时间短，效率高。译文来源于人工语料，表达地道。但是，依据该方法，翻译效果极大取决于翻译模型和语料库的覆盖程度，语料难以收集的少数民族语言翻译很难运用这一方法。利用统计模型进行翻译，模型很难反映出句子内部的所存在的差异，也无法解释差异较大的语言之间内部的复杂的结构对应关系，因此，通过这一方法得到的译文经常会出现翻译腔，译文晦涩难懂。

三、基于语料库的机器翻译的前景

基于统计的机器翻译方法从语言现象入手，通过相对理性的模型得到译文。基于实例的机器翻译方法从机器自身学习的角度通过对实例的分析推理得到译文。每种翻译方法都存在缺陷。但是，两种方法互不排斥。基于语料库的机器翻译的前景是将各种方法的优点有机地结合起来，进一步提高机器翻译系统的性能。现在，基于语料库的机器翻译的前景就是如何将各种方法各自的优点发挥到最大限度，并将它们有機的结合起来，从而进一步改善并且提高机器翻译系统的性能。

基于语料库的机器翻译方法的另一个发展方向在学科之间的交叉融合上，与自然科学，如神经学科的融合促进机器翻译的人工智能化，与社会科学，如语言学和社会文化研究结合将促进机器翻译更多的考虑到文化因素的影响。从而，改善基于语料库的机器翻译的性能。

参考文献

[1] 任敬辉.国内基于语料库的翻译研究综述（2007-2013）[J].长春师范大学学报，2015，34（06）：118.

[2] 李也刚，黄河燕，史树敏，等.多策略机器翻译研究综述[J].中文信息学报，2015，29（02）：2.

[3] 戴新宇，尹存燕，陈家俊，等.机器翻译研究现状与展望[J].计算机科学，2004，31（11）：177.

[4] 冯志伟.基于语料库的机器翻译系统[J].术语标准化与信息技术，2010（01）：28-32.

[5] 杨宪泽.机器翻译的一些处理方法探讨[J].西南民族大学学报（自然科学版），2004，30（01）2-3.

[6] 杨宪泽.基于实例的机器翻译处理方法[J].计算机工程，2003，29（21）：51-52.

[7] 杨宪泽.汉英混合式机器翻译难点研究[J].西南民族大学学报（自然科学版），2016，42（03）：304-305.

作者简介：钟媛媛（1994.12- ），女，山西忻州人，硕士，研究方向：外国语言学及应用语言学;延宏（1972- ），男，陕西绥德人，副教授，博士，研究方向：科技英语翻译。