火山翻译2020年度盘点:新品涌现,技术突破,未来可期

托福2025-08-27 09:10:00佚名

最近火山翻译团队公布了《请翻译2020》的年度回顾,具体介绍了去年推出的火山翻译、火山同传等新功能,以及训练机器翻译时遇到的技术难题和应对方法。在2020年的最后三天,火山翻译的使用请求量每天达到1.38亿次,每日处理的文字数量超过百亿级别。若将火山每日翻译的字符量打印在A4纸上,叠放起来的纸张总高度,约莫有1.3座东方明珠电视塔那么高。

2020年国际机器翻译大赛(WMT20)中取得第一名之后,火山翻译团队正在钻研mRASP 、和MGNMT这些前沿技术。这些新技术的应用将带来更令人兴奋的效果,也许在2021年,火山翻译会有更多令人瞩目的表现。

火山翻译爆发年:2020新品涌现

火山翻译团队凭借多年技术沉淀、产品设计及方案扶持,推出了包括火山同传、火山翻译API、火山翻译及浏览器翻译插件在内的一系列关联产品。

视频翻译工具:火山翻译

二零二零年三月,火山翻译团队推出创新的人工智能视频翻译软件——火山翻译 V0.1版,开始对公众进行封闭测试。

火山翻译运用尖端语音识别与神经翻译技术,为视频制作者提供专业便捷的视频「录制文字化-字幕生成-语言转换」整体解决方案,把视频制作过程中三项繁复工作「集中处理」完成。该产品具备交互式翻译和专有名词调整等辅助功能,既提升翻译速度,又让字幕表现更具特色。这款工具构建了更优越的两种语言字幕制作氛围,显著减少了两种语言字幕的制作开销,协助用户便捷处理视频内容的跨语言分发事务。

火山系翻译工具,可自动制作两种语言字幕,能进行交互式翻译,支持专业词汇调整等操作

直播与会议翻译:火山同传

二零二零年十月,火山翻译团队推出了智能同传产品火山同传,旨在为线下会议、线上直播配备即时机器同传支持。在这一年里,火山同传陆续为飞书未来无限大会、知名艺术家村上隆的首场中国直播、第四届CTDC首席技术官领袖峰会等多项直播和大会提供了服务并参与其中。

为了保障即时翻译的精确度,以及实时字幕的优良呈现,火山同传推出了两种字幕方案,分别是整屏逐字展示模式,和影院级别的字幕稳定保障模式,可以适应各种不同的使用环境。该产品支持55种语言的翻译功能,同时具备中英日三种语言的听写辨认能力,这些都是它的高性能服务特色。通过人工辅助的校验机制,能够实时进行修正,确保字幕的准确无误,并且保持播放的连贯性。特别推出的「VFT专业场景适配方案」,使翻译模型的表述方式更能满足大会在文体等方面的要求,为实时字幕呈现带来了更佳方案。

知名日本艺术家村上隆首场中国直播,火山同传提供智能同传字幕

精准翻译的在线平台:火山翻译网页版

十一月,火山翻译网页版成功发布,推出了中文与英文两种语言版本,同时包含了电脑版和手机版的在线翻译功能,以及相关产品的详细信息展示。

该翻译网站能够处理多达55种语言之间的相互转换,单次翻译的文本长度可以达到2000个汉字。它具备自动识别语言种类、快速复制翻译结果、同时显示原文和译文等实用功能,方便用户快速获得准确的跨语言转换服务。

产品介绍页面系统性地列出了「机器翻译API」、「视频字幕翻译」以及「智能同传」等火山翻译旗下的优质服务,另外还设有「网页翻译-浏览器插件」等应用的体验入口。火山翻译针对B端客户的相关服务功能已整合进火山引擎智能应用版块,致力于向更多客户输出企业级的技术产品与解决方案。

火山翻译官网在线翻译页,支持55个语种全语向互译

翻越“三座大山”,打造多语种、大量级服务的技术能力

这项出色的翻译软件得以实现,多亏了火山翻译组织里算法专家和工程技术人员多年来的辛勤付出。该软件每日完整服务量超过一亿次调用,团队仍致力于增加更多语言种类多国语言在线翻译,并且力求翻译质量更上一层楼。

语种扩展,支持55门语言互译

这一年度,火山翻译在拓展翻译语言范畴上不断努力,从起初仅有少数几种语言,发展到如今能够处理55种语言、2970种语言对之间的转换。这其中涵盖了马其顿语、斯洛文尼亚语、乌尔都语、旁遮普语等较为罕见的语言类型。

在培养机器翻译系统的历程里,火山翻译集体顺利克服了若干关键难题:

1. 涉足冷门的翻译领域

特定翻译范畴的稀少性加大了模型训练的挑战,特别是「泛娱乐场景」这类兼具极强非标准化与趣味性的翻译范畴。针对这种情况,火山翻译整合了「NMT范畴适配、范畴数据扩充、巨量模型训练、多范畴模型」等多种范畴的技术,依据各范畴特性实施改良,成功突破了范畴罕见性造成的算法优化困境。

2. 部分语种平行数据匮乏

语言种类丰富贝语网校,但少数语言的对应文本资料不足,这始终是培养机器翻译系统时的一个难点。当可供对比的文本资料不足时,火山翻译的技术人员借助自研的Fluid系统,采用半自动学习方式,进行多种语言的基础训练,最终成功研制出一种多语言翻译系统,解决了因缺乏对比资料导致系统表现不佳、翻译质量不高等技术问题。

基于Fluid平台的半监督训练

层次化建模

3. 服务量级大

工作中资源总是捉襟见肘。算法训练和优化期间,因为GPU资源紧张,需要训练的语种数目却非常可观,火山翻译团队迫切需要提高GPU的使用效率来克服这一难题。为此,团队采用了「多语言翻译模型」来统筹资源,并行处理多种长尾语种的训练,使资源利用程度显著增强,圆满完成了大规模服务的任务。

专业评测,火山翻译获国际比赛冠军

不断突破语言表达的局限,持续更新改进各个语言方向的翻译水准,火山翻译在全球范围内展现出很强的竞争优势。

2020年国际机器翻译大赛举办期间,火山翻译团队从众多竞争者中脱颖而出,在「中文-英语」这一核心翻译任务上取得压倒性胜利,最终赢得该项赛事的最高荣誉。另外,火山翻译也赢得了「德语-英语」 、「德语-法语」 、「英语-高棉语」 以及「英语-普什图语」 语言对机器翻译竞赛的桂冠,同时还夺得了平行语料过滤与对齐项目普什图语和高棉语的两个冠军头衔。

历届赛事里,「中文-英语」的转换作业都是角逐最激烈、报名队伍最多的机器翻译挑战项目。火山翻译这支新锐队伍,参与了「开放环境」的竞赛——这种模式规定,依据提供的测试资料,参赛者能运用所有可用资源及策略,尽最大限度提升译文质量。此外,主办方还选用了四种知名的在线机器翻译服务(-A、G、Z、B)进行参照。此类竞赛形式被视为"最能有效评估翻译组合数据及算法整体水平"的场合。在比赛策划机构特邀的语言学者的严谨评判下,火山翻译凭借显著的实力赢得了该项赛事的最高荣誉。

WMT20 赛事里中英翻译排名靠前的系统评分,火山翻译获得最高分。Ave.z 指的是人工评估转换后的标准化得分,这同时也是机器翻译领域当前最受推崇的衡量标准。

与「中文-英语」方向不同,「德语-英语」方向一直是WMT赛事中的常规赛道,同时也是欧洲各国队伍重点角逐的领域。在「德语-英语」赛事的终局人工评审阶段,火山翻译依然展现了高超的翻译能力,最终拔得头筹。最后,主办方对参赛小组赞赏有加,称火山翻译这个新加入者特别突出,其表现胜过了众多老牌团队。

这张图展示了火山翻译与谷歌翻译在各个语言对测试集上的表现差异情况,横轴代表语言对信息,纵轴体现的是BLEU分数的差距。根据图中数据可以知道,在左侧棕色区域涵盖的大部分语言对中,火山翻译的自动评测分数都要好于谷歌。特别是日语转中文、印尼语转英语、中文转日语这三个语言对,其分数比谷歌翻译高出整整十个BLEU值。BLEU全称多国语言在线翻译,是当前应用最普遍的机器翻译自动评估标准

火山翻译和谷歌翻译在各语向测试集上的表现对比

在英语的翻译实践中,火山翻译有72%的自动评估结果好于谷歌翻译。火山翻译正不断努力在其他语言上取得优异表现,希望为全球更多使用者提供令人满意的翻译体验。

2020年岁末的最后三天,火山翻译每日处理的文字量突破百亿级别,每日的翻译请求高达1.38亿次,为飞书、今日头条等众多业务提供可靠支持。火山翻译能够灵活部署于公有云平台或私有化环境,可以快速构建垂直领域的翻译模型,以此满足不同行业的特殊翻译要求。

新技术将带来更激动人心的翻译体验

翻译产品与服务领域,无论是模型构建还是推理性能,都必须不断进行创新并加大投入力度。根据2020年的工作总结,火山翻译部门公开了他们正在推进的翻译技术探索实践,包括多种前沿方案

创造多语言预训练的新范式mRASP

mRASP( Pre-)构建的关键理念在于塑造「翻译领域的BERT标杆」,借助先期训练手段实施大规模学习,随后针对特定语言开展细致调整,便能获得卓越的转换表现。该系统在32组语言间进行的基础训练,于至少47种翻译评估标准中均实现了整体性的明显进步。在火山翻译中,该技术已被广泛使用,得到了业务上的实践检验。

以BERT为典型代表的深度学习模型几乎主导了所有自然语言处理任务,构成了各类NLP应用的基础框架。mRASP与既有机器翻译方法截然不同,开创了机器翻译领域预训练及后续精调的可行模式。

mRASP专门为机器翻译工作环境打造,展现出三个突出的实用价值,分别是,能够显著提升翻译质量,有助于实现更高效的翻译流程,有利于增强翻译系统的整体性能。

1. 打破了资源场景的限制

任何平行语料库质量如何,翻译效果都能得到改善。对于像标准英法对译这样条件较好的语料,即便已有四千万对齐句用于训练,采用mRASP方法依然能大幅提高性能,使BLEU分数增至44.3分。在资源匮乏的语言对上,mRASP展现出令人意想不到的效果,即便训练数据仅有区区一万句,经过十分钟的参数优化过程,也能构建出一个质量尚可的翻译模型。

2. 打破了语种数量的限制

各种语言之间的转换,包括孟加拉语转换成古吉拉特语,或者印地语转换成菲律宾语,只要涉及的是地球上存在的语言,都能通过mRASP直接进行优化,而且优化效果相当不错。

3. 资源消耗低

其他上百种卡片的预训练方法充斥着激烈的竞争,而mRASP则显得更为亲民,仅用八张卡就能在一周内训练完毕。可以说,mRASP在机器翻译领域扮演着类似轻量级BERT的角色,它适用于各类机器翻译任务,无论面对何种场景或语言,使用mRASP都极有可能带来惊喜。

mRASP基于框架,利用多个语对的平行语料建立预训练模型

高性能序列推理引擎

这是一种运行速度极快并且能够具备多种功能的先进序列分析工具,它针对以某种技术为核心的序列信息处理器以及基于预测的序列生成器进行了显著改进,在2019年12月便公开发源,已经服务于诸如火山翻译之类的许多项目和工作环境。根据消息,这可能是全球首个能够全面兼容、GPT等不同类型模型快速运算的公开软件。

可用于机器翻译、自动问答、智能写作、对话回复生成等多种文本生成情境,明显提升线上模型推理效率,优化用户的使用感受,减少企业的运营维护开销。

相比于目前其他开源序列推理引擎,具有如下几点优势:

1. 高性能

运算能力极其迅速。拿转换工作来说,比起先前最快的速度能提升十多倍。另外,它比现在市面上所有的开源顺序计算工具都要出色,有的产品在效率上仅能比它强百分之四十左右。

2. 支持模型功能多

兼容众多模型,比如BERT、GPT、VAE等,也兼容多种解码途径,例如beam 、集束搜索等。

3. 简单易用,无缝衔接、等深度学习框架

建立模型规范,可方便地接入多种深度学习平台训练所得的模型。此外,提供现成的端到端模型部署方案,无需编写任何代码即可实现高速模型推断,并且能够灵活地进行多级复用。

解码示意图

镜像生成式翻译模型MGNMT

镜像翻译生成模型MGNMT(- )致力于处理机器翻译在缺少平行语料时的难题,该模型已用于火山翻译的多种语言转换任务中。借助镜像生成技术,MGNMT借助互为镜像的翻译路径关联性,同时融合翻译系统和语言系统,使两者形成互补,因此大幅改善了译文水准

现在的翻译软件必须在众多互相参照的对照语料中学习,才能获得良好的表现。不过,在许多语言种类少或专业方向独特的情境里,互相参照的对照语料相当稀少。这种状况下,互相参照的对照语料十分难得,必须更巧妙地运用;同时因为互相参照的对照语料不足,充分运用大量单一语言的资料也非常关键。

为了充分发掘双语资料与单语资料的价值,该系统运用了多种核心方法,具体如下:

借助一个共同的潜在因素,把两个互译的转换系统以及两种语言的表述系统,整合进一个概率框架里。

训练期间,两种翻译路径彼此增益。借助隐变量解析了成对双语文本的语义等同性,使两种翻译路径的模型得以更充分地运用双语匹配资料;又凭借隐变量充当连接枢纽,任何一种语言的单语资料都能同步辅助两种翻译路径的模型,进而更有效地利用了单语资料。

解码期间,语言模型与翻译模型彼此配合,正向翻译模型和目标语言模型通过beam方法联合解码,从而形成若干候选译文,接着反向翻译模型和源语言模型对候选译文进行评估,最终挑选出与原文含义最为贴近的优选译文。

在资源匮乏的环境中,MGNMT在各种数据集上都取得了最优的翻译表现。与常规模型对比,以及与回翻译(Back-)结合增强数据以借助单语信息的方法相比,其效果都呈现出稳定且突出的进步。

MGNMT的示意图展示了该模型,它构建了两个翻译模型以及两个语言模型,分别对应两种翻译方向。

结语

我们和你同样,走走停停,却从未动摇。我们和你同样,历经坎坷,却始终乐观。在《请翻译2020》的总结里,火山翻译团队透露,为了达到更出色的译文质量,打造更佳的跨国沟通感受,他们不知疲倦地为各种语言寻找最佳方案,旨在“缩小地球距离,拉近不同文明距离”。

相关推荐

猜你喜欢

大家正在看

换一换