原创 栗子,Owl 果壳
这实在是一件让人费解的事,原本不打算在众人面前提及,可如今屡次碰壁,思虑再三,虽不希望搅扰果壳头条,却不得不问——为何机器翻译的文字,常常令人费解!
网友试着把郑爽的动态译成外文,居然变得异常流畅。旁观者开始揣测,郑爽的动态之所以让人费解,也许是借助了自动翻译的功能 | 图片来自豆瓣@
机器翻译已经很努力了!
过去的机器翻译,往往先将句子分成若干部分,接着逐一进行转换。
人的语言转换并非如此。我们往往先完整阅读整个语句留学之路,以便把握其内容网上在线翻译,然后再用另一种语言转述相似的含义。而常规的机器翻译与人的阅读习惯存在差异,这是导致转换不够流畅的一个关键因素。
其后,研究人员发现了一种称作“神经机器翻译”(NMT)的技术,这种技术力求模仿人类的翻译过程。
“我是学生”的英文翻译为法文 |
这种技术面对一段文字时,会借助编码装置将全文翻译为一个数据序列,这个序列由若干数值构成,用以表述文本内容。接着,会采用解码装置,将这个数值序列翻译成期望的语言形式。
这种人工智能,能够更精准地识别字符间的关联性,即便两个文字相隔较远,中间穿插了其他文字,也能综合分析句子构造等要素。
编码器和解码器的性能怎样提升?人类持续不断地向算法提供文本资料,这些资料多数是两种语言对照的,模型就能从中总结出更多模式,翻译水平因此逐步提高。
即便持续进修,人工智能翻译依然会产生大量晦涩难懂的译文,谷歌翻译
但还是有各种 bug
然而,单个人工智能即便掌握海量知识网上在线翻译,也仅能提供基于概率的回应,无法准确把握语言内在的关联性。以谷歌翻译为例,它曾犯下过一次典型失误。当输入“北大不如清华”时,其输出结果为“ is than ”。相比之下,人类译者通常不会犯此类错误。
北大不如清华 | 谷歌翻译
除此之外,AI 在将中文翻译成其他语言时,还会面临一个挑战,那就是如何进行词语划分。
汉语中的字词大多由两个或以上汉字构成,而字与字之间并无停顿。掌握这门语言的人通常不会犯错,但人工智能系统必须先弄清楚哪些字会组合成词语或固定用法,才能做到更精准的转换。
近些年,涌现出许多优秀的文本切分软件,例如由百度技术人员 Sun Junyi 设计的结巴分词,还有清华机构研发的,以及北大机构制作的等等。这些工具不承担翻译任务,不过它们同样是通过海量文本进行学习而形成的智能系统。
当然,即便是再聪慧的词汇分割人工智能,恐怕也无法处理“强权将我们的地盘瓜分”“我们内部出现了背叛者”这类棘手的句子翻译。
我们中出了叛徒 | 弹丸论破
此外,自动翻译仍然存在一个常见现象:单个词语都能理解,整个句子的含义也能把握,只是整体表达显得非常生硬。
嘿,我的老伙计,这不是翻译腔吗?
翻译文字如果拘泥于原文形式,就常会脱离目标语言的表达习惯,造成表达生硬。这种生硬的表达在不恰当的语境中,会显得不妥、晦涩,甚至令人发笑。虽然人工翻译这种情况已不多见,但机器翻译面对长句和上下文时,往往难以准确把握,容易产生类似“翻译腔”的结果,有时直接阅读原文反而更易理解。
忽视中文表达习惯的一个典型 | 编辑供图
看不懂?译后编辑很重要!
机器翻译极大提升了信息交流的速度,假如仅要求获得粗略含义,直接采用机器翻译生成的文本,一般不会造成严重后果。然而在规范的文稿,乃至文学作品中,倘若有人胆敢直接运用机器翻译的产物,那真称得上是勇敢之人了。
对于需要快速翻译且要求准确度的文本材料,采用机器翻译再由人工进行修正,是一种兼顾速度与精确度的翻译途径,这种做法促使了译后编辑这一新兴职业的出现。
译后编辑的工作,需要让机器翻译变得通顺易懂,但这并不简单,既要迅速找出机器翻译文本中的问题,又要根据翻译的用途,去调整和改进翻译的最终效果。
有提供译后编辑服务的公司 | .co
人们或许会疑惑:这项任务与翻译校对的工作是否类似?事实上,两者相去甚远。除了必须具备翻译前后语言的基础认知,译后编辑工作还要求熟悉机器翻译的运作机制,并掌握基础的编程能力,以便为机器翻译系统创建必要的专业词汇库。
机器翻译作为沟通手段,会不断进步,生成的语句也会愈加明白。但语言不只是应用工具,后期修订正是融合机器翻译的高效性与人工翻译的精准性,使人能迅速获取易于理解,又带有文采、蕴含情感的内容。
毕竟,如果有了译后编辑,应该就不会这种翻译了吧��