有机会,我把机器翻译的故事讲给你听

发布时间:2020-09-10

作者:张学强



题记







假如你问我,有什么AI技术看似严谨、生硬、木讷,实则感性、典雅、有温度?我会毫不犹豫并迫不及待的告诉你——机器翻译。



故事一


成也语言

败也语言



四大文明古国之一的巴比伦曾流传着这样一个故事——人类诞生之初,曾联合起来齐心协力修建一座通往天堂的巴别塔。为了阻止人类的宏伟计划,上帝让人类说不同的语言,导致相互之间难以沟通。最终这一浩大工程落败,人类自此各散东西,不相往来。故事戛然而止,在感叹语言沟通重要性的同时,还夹杂着些许《桃花源记》中“不足为外人道,后遂无问津者”的遗憾。巴别塔的遗憾持续了几千年,直到机器翻译应运而生。

随着“新基建”的概念提出与范围明确,语言服务在基础设施的信息化、融合化、创新化发展过程中扮演着愈发重要的角色。以翻译为代表的语言服务,早在玄奘西行、郑和七下西洋、哥伦布四探航海已肩负着文化传播、科技交流的重任。新背景下,我们期许机器翻译重塑巴别塔,成为服务“新基建”的基建



故事二

生于冷战

兴于和平

1933年,前苏联科学家Troyanskii提交了一篇《双语翻译时用于选择和打印文字的机器》的论文,这是机器翻译最早的雏形。1946年,世界上首台计算机ENIAC诞生不久,洛克菲勒基金会的美国科学家Weaver等人在思考计算机未来应用时,联想到二战期间图灵用机器破译密码取得了巨大成功。他们认为,语言翻译与破译密码相似,都是把一种符号转换成另一种符号,同样可以用机器来实现。顺沿这种思路,Weaver于1949年发表《翻译备忘录》,正式提出机器翻译的思想。当时正值美苏两国冷战期间,对于英俄情报资料的翻译需求迫切,想法一经提出立即受到各国重视,开启了机器翻译的百花齐放、百家争鸣时代。

近年来,随着国际经济文化交流合作的频繁,机器翻译的市场需求持续增大,算法模型的研究工作不断传来振奋人心的消息。以神经机器翻译为代表的新一代翻译技术,已经大幅超越了过去20年所有的翻译方式。单词顺序错误降低了50%,词汇错误降低了17%,语法错误降低了19%,甚至学会了用不同的语言结构来调整男女老幼与大小写变化。


故事三

             匕

译事三难


信·达·雅


 阝               

我国清末新兴启蒙思想家严复,在翻译英国著名学者赫胥黎的著作《天演论》时提出:“译事三难:信、达、雅。求其信,已大难矣!顾信矣,不达,虽译,犹不译也,则达尚焉。”其中,“信”指意义不悖原文,即译文要准确,不偏离,不遗漏,也不可随意增减含义;“达”指不拘泥于原文形式,译文通顺明白;“雅”则指译文时选用的词语要得体,追求文章本身的古雅,简明优雅。严复提出的三难只是翻译作为传统行业存在的难点,机器翻译建立在此基础上的第四难是,“信达雅”要由冷冰冰的二进制机器来胜任,这恐怕是对人工智能最苛刻的期许了。

开展关乎“信、达、雅”的研究已然很难,评价这项研究更难。上世纪90年代初,美国国家自然基金委员会在资助国际语言工程标准时专门设立了EWG机器翻译评测工作组。1992年至1994年间,美国国防部高级研究计划署(DARPA)组织多位专家从译文的忠实度、流利度和信息量三个角度对法英、日英、西英的机器翻译系统开展了大规模人工主观评测。如何评价机器翻译,技术的“信”,应用的“达”、产业的“雅”?如何发现机器翻译“智能+语义”的美?中国人工智能产业发展联盟将与各方携手上下而求索。



故事四

分饰NLP的老旦与小生

如果你问NLP领域最“耄耋之年”与最“黄发垂髫”技术是什么?我想所有人都会异口同声的说出机器翻译。无论NLP处于理性主义时代,还是后起之秀的经验主义时代,机器翻译总能活跃在学术界与工业界,审时度势的完成一次又一次蜕变。从基于规则的直接翻译、转换翻译、中间语言翻译,到基于统计的单词翻译、短语翻译、语法翻译,再到基于深度学习的seq2seq、fairseq、transformer,机器翻译似乎总能站在技术跃进的风口浪尖上。

没有金刚钻,不揽瓷器活。机器翻译几乎涵盖了NLP领域所有底层技术研究的难点与顶层产业应用的痛点。一方面,分词、子词和BPE等词法技术的点滴改善,能在机器翻译上掀起波澜效果;另一方面,由机器翻译模型Transformer衍生出的GPT、BERT等预训练方法在下游任务上也取得了一系列里程碑式的突破。如果说,NLP的发展演变是一台戏,那么机器翻译兴许以一技之长分饰了老旦与小生二角。



故事五




星之火

   可以燎原

与图像、语音技术不同,NLP体系庞大、种类繁多、层次鲜明。大家庭中,比机器翻译技术领域宽、应用场景广的成员大有所在。以对话系统为例,被称为人工智能之父的图灵在回答什么是智能时提及,人与机器在隔开的情况下随意提问,机器的回答能够以假乱真则达到了智能水平。诚然,与翻译相比,对话是智能的最佳外在表现。但对话的语义空间是发散的、跳跃的,而翻译却是约束的、收敛的,这无疑占尽了语言解析、符号连接、语义表示、逻辑推理的天时地利与人和。

作为新技术在NLP领域的“试金石”与“落脚点”,机器翻译为NLP迎来了深度学习、强化学习、迁移学习、无监督学习、注意力机制、预训练、微调、数据增强等一系列前沿技术。现今,尽管对话系统在智能客服、智能助手、服务机器人等人机交互频繁的场景都有着广泛而深远的应用,然而从ACL、EMNLP等顶会来看,机器翻译一枝独秀,一如既往。

如果说,NLP是人工智能的皇冠,那么机器翻译无疑是皇冠上最璀璨的明珠。我们有理由相信,这颗明珠发出的星星之光,能点亮NLP的灿烂之路。