一、研究意义
机器翻译是自然语言处理和人工智能的重要研究领域,研究如何利用计算机自动地实现不同语言之间的相互转换,也是互联网上常用的服务之一。谷歌翻译、百度翻译和微软必应翻译都提供多种语言之间的在线翻译服务。尽管机器翻译与专业翻译人员在翻译质量上仍存在较大差距,但在一些对翻译质量要求不高的场景中,或在特定的翻译任务中,机器翻译在翻译速度上具有明显优势,并且仍被广泛使用[10]。鉴于机器翻译的复杂性和应用前景,它已成为自然语言处理领域中最活跃的研究领域之一。自20世纪30年代成立以来,它取得了突破。机器翻译在提高翻译效率、改变翻译操作方法、促进翻译多样化发展方面起着至关重要的作用[2]。随着科学技术的进步,机器翻译方法也在不断创新。从最初的基于规则的机器翻译,到基于统计的机器翻译,再到现在的基于人工神经网络的机器翻译,每一种方法的进步都在准确性和速度上带来了巨大的进步。
二、模型原理描述
机器翻译是用计算机将一种自然源语言转换成另一种自然目标语言的过程。机器翻译系统是随着语料库语言学的兴起而发展起来的。不同类型的机器翻译系统由不同的部件组成,但所有机器翻译系统的处理过程都包括以下步骤: 对源语言的分析或理解,在语言的某一层面上进行转换,并根据目的语的结构规则生成目的语。目前,谷歌翻译是市场上比较成熟的翻译技术。其翻译背后的技术是基于统计的机器翻译方法。其基本操作原理是将大量的双语页面作为语料库进行搜索,然后计算机自动选择出最常用的单词之间的对应关系,最后给出翻译结果。机器翻译的过程可以分为三个阶段:原文分析、原文翻译和译文生成。根据不同方案的目的和要求,既可以将原翻译转换阶段与原分析阶段相结合,又可以将翻译生成阶段分离,建立独立的相关分析生成系统,适合于研究一种语言到多种语言的翻译。同样,我们可以将原文分析、原文翻译转换和翻译生成分离开来,建立一个独立的分析和独立生成系统,这适用于多语对多语翻译的研究。[11]
三、国内外研究现状
机器翻译的原型在计算机技术诞生之前就已经存在了。20世纪30年代,“机械大脑”通过物理手段在源语和目标语中找到了该词的意义。苏联斯米尔诺夫设计的“辅助翻译工作坊”首先利用类似的机械物理原理在词汇层面完成意义翻译,然后手工校对并组织成句子。第二次世界大战后计算机的发明进一步改进了原来的机械方法。伦敦大学的研究人员设计并添加了搜索算法,使之前的机械方法更有效。机器翻译的研究真正开始于20世纪40年代末,始于自然语言处理之父沃伦韦弗(Warren weaver)。
沃伦·韦弗把翻译过程看作是解码过程。1949年,韦弗和香农共同发表了《通信的数学原理》,认为思想的交换是一个“编码解码”的过程。韦弗于1949年首次提出使用计算机进行翻译的想法,并提出了避免“逐字逐句”翻译[6]的四项具体原则:语境对词汇意义的影响、语言的逻辑和推理、翻译和解码的过程、语言的普遍性。受weaver的启发,机器翻译研究如雨后春笋般涌现并迅速发展。1952年,麻省理工学院(MIT)博士后研究员、以色列著名哲学家、语言学家和数学家巴尔·希勒尔(Bar Hillel)组织了第一届机器翻译会议。此后,乔治敦大学、华盛顿大学和IBM也积极开展机器翻译的研究。英国剑桥大学和苏联列宁格勒大学也投资了机器翻译的研究。
1950年至1960年,理论语言学对机器翻译的研究主要集中在句法分析上,并在句法分析的基础上建立了各种机器翻译模型。机器翻译的迅速发展导致了美国、苏联、欧洲和中国的相关研究。在此期间,中国科学院成立了机器翻译研究小组,主要开展汉语和俄语的机器翻译研究。研究人员发现,机器翻译产生的译文质量参差不齐,难以达到预期的要求。因此,机器翻译发展的可行性受到了质疑。1958年,Bar Hillel列举了机器翻译在翻译过程中无法解决的几个基本语言问题[5],指出机器翻译系统面临着不可逾越的语义障碍。Bar Hillel认为,机器翻译的最大障碍是语义歧义。语言语义的多样性要求机器翻译必须有一个能够充分分析语言结构和语义的语法和句法系统。然而,当时使用的转换规则和句法分析模型显然无法解决各种复杂的语言问题。1966年,ALPAC发表了一份报告,指出由于需要为机器翻译建立规则算法和模型设置,翻译质量不令人满意,大量的经济投入表明产出和投入之间存在明显的不平衡。ALPAC报告的发表导致机器翻译的主要资金基本停止,许多机器翻译研究也停止。
ALPAC报告的发布直接导致机器翻译投资和技术研究的广泛停止。相比之下,在加拿大、法国、欧盟等国家和地区开展的机器翻译研究在特定应用领域表现良好。1965年,加拿大在蒙特利尔成立了机器翻译研究中心,并建立了TAUM机器翻译系统,主要从事英法双语机器翻译的研究和实践。法语机器翻译研究的重点是俄语和法语技术文本的互译。后来,在20世纪70年代中期,沃库瓦对以前应用的翻译系统进行了一定程度的改革,以完成俄语和法语文本之间更多类型的互译。由于欧盟成员国众多,语言各异,因此它也有发展机器翻译的实际需要。欧盟与第一个在美国出生的商业机器翻译系统开发商Systran合作,在欧盟成员国的语言之间进行自动机器翻译[4]。
自1990年以来,出现了大量双语和多语语料库。在20世纪80年代末和90年代初,IBM研究人员发表了关于机器翻译新动态的论文,详细讨论了基于词典和转换规则的传统机器翻译方法和基于并行语料库的实例机器翻译方法。这些研究论文对机器翻译理论的巩固和拓展,以及新方法和新规则的实践和形成起到了重要的推动作用。芬兰于1990年举行了国际计算语言学大会。辛顿说,这次会议开创了基于大规模平行语料库的统计机器翻译时代。基于语料库的统计机器翻译通过平行文本中的单词对齐、短语对齐和句子对齐自动构建机器翻译模型。近年来,基于深度学习的神经机器翻译系统得到了迅速的发展和发展。由于深度学习是由机器进行的多层次非线性处理,因此与传统的浅层线性处理相比,深度学习在模型分析和分类方面具有更高的精度和性能。深度学习技术模拟神经网络,使机器能够自动学习抽象的特征表达,并将学习结果灵活地应用于其他任务。因此,基于深度学习的机器翻译可以尽可能避免人工部署,实现机器对最佳翻译结果的自动推理。
四、算法比较
机器翻译方法是机器翻译系统构建的核心,是其原理的直接体现,对机器翻译的性能起着决定性的作用。由于算法和核心技术的不同,机器翻译的实现方式也不同。根据知识处理的方式,它可以分为三种类型:一种是常规方法,包括直接法、转换法和中间语法;另一种是语料库方法,可细分为案例法、统计法和神经网络法。还有一种混合方法。
规则法又称理性主义法,是指以语言规则或知识为基础的机器翻译系统,包括直接法、转换法和中间语法。直接法,即逐字翻译法,是指在不分析源语言的情况下,直接将源语言中的词短语替换为目的语中相应的词短语,必要时调整词序。翻译过程大致是源语言输入、双语词典查询、语序调整和目标语言输出。对于密切相关的语言,该方法更实用。此外,翻译效果不理想,认知过程泛化严重,因此被抛弃。转换是指通过中间表示在源语言和目标语言之间进行的转换,一般包括三个步骤:源语言分析、源语言转换和目标语言生成。先将深层结构翻译成源语言,再将深层结构翻译成源语言。这种方法在早期很流行,当时大多数系统都使用转换方法。中间语法将源语言转换为一种对任何语言都通用的无歧义的中间语言表示,然后借助中间语言表示生成目标语言。该法律在理论上是相当经济的,但目前还没有成功的案例。实际上,这种转换方法类似于中间语法原理,需要中间表示的帮助。不同之处在于两种方法的抽象程度不同,后者的抽象程度更高。此外,前者的中间表示与源语言或目的语言的结构有关,而后者独立于任何自然语言。规则法是20世纪90年代以前的主流方法。它主要依赖于基于手工定制的规则库、词典库和各种知识库。它需要高度依赖人类的经验和知识,所以它往往是不实用的[3]。
语料库方法又称实证方法,是一种基于标注语料库,尤其是双语或多语平行语料库的数据驱动的机器翻译系统构建方法。这种方法既不需要词典也不需要规则,主要是语料库统计。语料库方法主要得益于现代语料库技术的发展,目前仍是机器翻译系统的主流构建方法,包括案例法、统计法和神经网络法。三者的翻译知识来源于语料库。区别在于前者在翻译过程中仍然需要使用语料库,而语料库本身是翻译知识的一种形式,而后两者在翻译过程中不需要使用语料库,其知识是通过统计数据而不是语料库本身来表达的。
案例法最早由日本著名机器翻译专家甄永高于1981年[7]提出,1984年发表。其思想是首先在机器中存储一些原文本及其对应翻译的示例,并让系统参考这些示例进行类比翻译。在翻译过程中,系统首先将源语言句子分割成短语片段,然后将分割后的短语片段与实例数据库中的源语言片段进行比较,找到最匹配的句子,然后生成相应的目标语言片段并组合成句子。案例法主要依赖于双语对齐的案例数据库,受语料库规模和覆盖范围的影响较大。此外,系统难以优化,实例不能充分利用。因此,随着统计方法的兴起,案例法逐渐淡出了人们的视野。
统计方法类似于案例法,统计方法也是一种语料库方法。早在1947年,Weaver就提出用统计方法解决机器翻译问题[9],但受当时技术水平的限制,直到1990年左右,IBM开发人员才将其付诸实践。统计方法主要依靠双语或多语平行语料库,通过词对齐和翻译规则提取来实现翻译建模,然后根据目标语言的规则并借助所学知识自动翻译。事实上,统计机器翻译的过程可以看作是信息传递的过程,即源语言被噪声信道扭曲而产生目标语言。翻译的任务是将观察到的源语言还原为最可能的目标语言,也就是说,同一源句子段可能对应多个候选翻译句子段,发生的概率就是翻译。因此,基于统计方法的翻译完全是一个概率问题。目标语言中的任何句子都可能是源语言中任何句子的翻译,但出现的概率是不同的。翻译的目的是找到出现概率最大的句子。与常规方法相比,统计方法克服了获取翻译知识的瓶颈,更具实用性,成为机器翻译的主要方向。
神经网络法与统计法类似,神经网络法在模型训练完毕后亦无需再使用语料库,但借助长短时记忆网络、门限循环单元、注意力机制等,后者在多种翻译任务上性能超越了前者,成为当前机器翻译的主流。该法最早可追溯到1997年,西班牙学者Forcada和Ñeco[8]提出了利用“编码器-解码器”框架进行翻译的思想。其核心在于,拥有海量节点的深度神经网络可直接从生数据中学习,且能有效捕获长距离依赖。翻译时,会将源语句子向量化,经各层网络传递后,逐步转化为计算机可“理解”的表示形式,再经多层复杂传导运算生成译语。与先前各类方法相比,神经网络法更具优势,译文更为流畅。目前,基于注意力的序列到序列模型是神经网络法的主流。该模型可动态计算最相关上下文,相对较好地解决了长句向量化难题,极大地提升了神经机器翻译的性能,对自然语言处理具有重要意义。
混合法,又称融合法,是一种集规则法、语料库法于一体的综合策略。依据翻译方式不同,又可将其细分为并行翻译法、串行翻译法、混杂翻译法。并行翻译法的典型代表由美国学者Frederking等于1994年提出[10]。在并行机译系统中,多个引擎共享一个类似线图的数据结构,都试图对整个或局部源语进行翻译。翻译时,会根据源语片段所处位置,将其译语片段放入该共享线图结构,归一化处理后给出综合评分,然后采用动态规划算法,选择一组恰好能覆盖整个源语句子,同时又具有最高评分的译语片段作为最终输出译文。与并行机译系统不同,串行机译系统会按不同翻译方法的先后顺序轮次进行,既可先用规则法翻译,后借语料库法调整,亦可先经规则法进行文本预处理,后用语料库法翻译,而后再用规则法调整译文。与上述两种翻译方式不同,在混杂机译系统中,并中有串,串中有并,两种翻译方式兼而有之,彼此互为补充。混合法由多种翻译策略集成,致力于在翻译或处理过程中扬长避短,排除单一方法之不足,从而在一定限度内提高翻译质量。上述各法都是历史实践更迭的产物,其间界限并非泾渭分明。就其优劣而论,各法自有千秋,但又难以胜任一切。客观而言,它们都曾是或现仍为机器翻译系统的主流构建方式。不过就目前来看,语料库法后起居上,似已成主流。
五、未来发展方向
目前,机器翻译已经取得了巨大的成功,新的研究成果不断涌现,可以说是继统计机器翻译之后的一种新的机器翻译方法。严格来说,自2014年以来,神经机器翻译受到了广泛关注,并发表了大量研究成果。由于研究周期较短,这种翻译模式仍有许多问题值得进一步探讨。以下几点可能成为未来研究的重点:
1、提高语言学解释性。基于编码器解码器的神经机器翻译,实现了源语言到目标语言的直接翻译,但是翻译过程很难得到充分的语言学解释。已有工作证明,可以从词语级神经机器翻译编码器中抽取出隐含的句法结构信息,以及在一定程度上对神经机器翻译的翻译过程进行解释和分析。从神经机器翻译模型中抽取出相应的语言学知识来解释翻译过程,以此改进翻译模型,是神经机器翻译未来重要的研究方向。
2、整合外部先验知识。由离散符号表示的外部资源,如句法标记、词性标注和双语词典,是非常重要的先验知识,在神经机器翻译中很难充分利用。更丰富的先验知识的集成是神经机器翻译的一个重要研究内容,也是提高翻译效果的重要方法,需要进一步研究。
3、句法神经机器翻译。神经机器翻译主要是一个词级序列到序列模型,它包含很少的句法信息。句法是句子结构的一个重要理论,将序列到序列翻译模型扩展到句法翻译模型,如树到序列、序列到树、树到树,是神经机器翻译模型体系结构创新的重要体现。
4、多语言机器翻译。连续空间表示是一种有效的多语语义表示方法,注意机制可以在不同语言之间共享,这为多语机器翻译的研究提供了良好的基础。基于多语平行语料库或多语可比语料库的多语机器翻译研究不仅具有学术价值,而且具有实用价值,是未来的一个重要发展方向。
5、多模态翻译。神经网络能够以统一的形式对文字、图像、语音等不同模态数据进行表示。目前,文字与图像之间实现端到端的直接翻译,并且图像信息也被应用到神经机器翻译。高效利用文字本身以外的信息,如语音、图像、位置场景等,以此构建多模态翻译是机器翻译真正实用化的必经之路。
六、总结
机器翻译一直是人工智能领域的一个重要研究课题。在经历了70年的风风雨雨之后,它进入了一个快速发展的时期。如何改进现有的神经网络机器翻译模型,构建更加准确的新型翻译模型,在整体翻译质量上实现质的飞跃,是现阶段迫切需要解决的问题。相信随着人工智能的进一步发展,未来机器翻译将在克服自然语言障碍、促进跨境交流方面发挥更重要的作用。
参考文献:
[1]YangLiuQunLiuandShouxunLin。Tree-to tring Alignment Template for Statistical Machine Translation[A]。In:ProceedingsoftheACL2006[C]。2016。
[2]LiangHuang KevinKnight and AravindJoshi。StatisticalSyntax-Directed Translation with Extended Domain of Locality[A]。In:Proceeding sof the7th AMTA[C]。Boston MA:2006。
[3] Cheragui, M. Theoretical overview of machine translation[A]. Proceedings ICWIT [C]. 2012: 160-169.
[4] Datteri, E. Large-scale simulations of the brain: Is there a “right” level of detail? [A]. In Berkich, D. & D’Alfonso, M.(eds.). On the Cognitive, Ethical, and Scientific Dimensions of Artificial Intelligence [C]. Cham: Springer, 2019: 205-220.
[5] Dreyfus, H. What Computers Still Can’t Do[M]. Cambridge, Massachusetts: The MIT Press, 2015.
[6] Gardner, H. Frames of Mind: The Theory of Multiple Intelligences(2nd ed.) [M]. London: Fontana,2018.
[7] Hinton, G. Deng, L. Yu, D. et al. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups[J]. IEEE Signal Processing Magazine, 2012(6): 82-97.
[8] Hutchins, J. Machine translation: A concise history[J]. Journal of Translation Studies, 2010(13): 29-70.
[9] 冯志伟. 基于短语和句法的统计机器翻译[J]. 燕山大学学报, 2015(11): 546-554.
[10] The Advantages and Disadvantages of Machine Translation from the Perspective of Translation Peng Ying School of Foreign Languages, East China University of Technology, Shanghai, China 2021
[11] 汪云, 周大军. 基于语料库的机器翻译的现状与展望[J]. 大学英语教学与研究, 2017(5): 45-50.
[12] 杨南. 基于神经网络学习的统计机器翻译研究[D]. 中国科学技术大学, 2014.