字节跳动研发“并行翻译”技术可将翻译速度提升数十倍
2022-01-18 08:23:54 来源:
7月16日消息,在WMT2021国际机器翻译大赛上,字节跳动火山翻译团队以“并行翻译”系统参赛,获得德语到英语方向机器翻译比赛自动评估第一名。“并行翻译”在国际大赛首次亮相,就成功击败了从左向右逐词翻译的“自回归模型”技术,打破后者在机器翻译领域的绝对统治地位。
据悉,WMT2021是由国际计算语言学协会ACL举办的世界顶级机器翻译比赛,德英语向是该赛事竞争最激烈的大语种项目之一。
火山翻译团队负责人介绍说,“自回归模型”更接近人类阅读习惯,逐词按顺序生成翻译,每一个输出的词都依赖于之前的词,当输出文本较长或者模型比较复杂时,机器翻译的速度很慢;“并行翻译”则是由机器同步输出所有的词,可以充分利用并行计算,将翻译速度提高数十倍。句子越长,速度提升越明显。
“并行翻译”的技术难点是如何组成连贯语句。对此,火山翻译团队采用了一项创新的渐进学习方式,由简单到复杂、由片段到整句训练“并行翻译”模型。在保持极高翻译速度的同时,“并行翻译”的质量显著提升。
火山翻译团队负责人坦言,在训练数据量小的场景下,“并行翻译”的质量相比传统技术处于劣势。但是当训练数据规模变大后,“并行翻译”会逐渐缩小差距,甚至反超传统技术。目前“并行翻译”技术已应用在火山翻译产品中,用以支持字节跳动的部分业务。
在去年的WMT2020比赛中,火山翻译获得中英、德英、德法等5个语向翻译冠军,今年以全新技术夺魁更是一次重要的突破。据介绍,火山翻译已支持50多个语种、近3000个语向的翻译,不仅应用在飞书、今日头条等字节跳动旗下产品,也通过火山引擎向企业客户提供技术服务。
-
不鼓励纪念钞(币)回存银行会不会导致其步入邮票的后尘?
冬奥纪念钞2亿发行量,线亿左右,预约者大多数都是收藏圈内人,真正纪念性收藏者不多。可是纸币收藏都是以靓号为尊,许多收藏者在兑换
2022-01-18 07:38
-
又是海信黑科技!全国首个5G智慧街区即将落户贵阳
井盖会自动报修、路标能说话导航,这不是科幻剧《黑镜》中的片段,而是马上就要发生在贵阳街头的线日,海信将在贵阳举办的2019中国国际大
2022-01-18 06:49
-
全新升级:MAXHUB智能会议解决方案羊城首秀
开会的本质就是以时间换结论的商业形式,而时间成本和结论的价值是评判会议是否高效的重要指标。MAXHUB产品经理在会上表示,但是很多企业
2022-01-18 05:21
-
引爆效率革命|柒牌百胜RPA软件机器人项目成功启动!
数字化和数智化有何区别? 数智化是数字化和智能化的合称,主要是指:在数字与智能技术(大数据、AI、云计算、区块链、物联网、5G等)手
2022-01-18 04:21
-
甘肃“5G+文旅”场景应用“吸粉”1300万人次
(原标题:足不出户即“闻”什川梨花香 甘肃省首场“5G+文旅”场景应用“吸粉”1300万人次) 4月11日上午,由甘肃电信、甘
2022-01-18 03:34