在小牛电动车论坛网上如何提问求助其他车友解决问题?,

探寻技术前沿,聚焦行业风口——第二届小牛翻译论坛完美收官

科大讯飞、华为、字节跳动都在做的语音翻译,分别有哪些技术进展?特别端到端的语音翻译技术,离产业落地应用还有多远?腾讯AI Lab开发的交互式机器翻译系统,有哪些新的技术探索?小牛翻译团队面向移动智能设备的机器翻译软件解决方案,有哪些独到之处?面向各种智能翻译终端的“等长机器翻译(isometric MT)”是个啥?

7月15日,由小牛翻译主办,东北大学自然语言处理实验室、沈阳国际软件园协办的第二届小牛翻译论坛(NiuTrans Forum 2022)在线上成功举办。

1949年7月15日,美国数学家Warren Weaver发表了《翻译备忘录》,提出了机器翻译的概念,为纪念这一思想的提出,小牛翻译团队于2021年发起“小牛翻译论坛”,每年举办一次,旨在聚集国内机器翻译研究学者、机器翻译技术开发者、机器翻译需求方等多个领域的代表,构建机器翻译学术界与产业界的交流平台,促进机器翻译产学研共同发展。

本届论坛以“机器翻译技术发展及产业应用”为主题,涵盖“主题报告”与“圆桌研讨”两部分。“主题报告”环节由小牛翻译总裁张春良主持,论坛邀请了科大讯飞AI研究院副院长刘俊华博士、华为2012实验室文本机器翻译实验室主任杨浩博士、腾讯AI Lab高级研究员黄国平博士、字节跳动机器翻译业务负责人王明轩博士、小牛翻译团队CTO杜权博士分享各自团队的技术研发与产业应用情况。

小牛翻译团队CTO杜权博士首先分享了题为“面向移动智能设备的模型优化技术与应用实践”的精彩报告,主要分享了在移动智能设备上应用机器翻译系统所使用的优化方法。在翻译速度优化方面,他指出利用8位整型来代替主流32浮点运算,以实现矩阵加速运算,可以带来4倍的空间节省;

以Transformer模型为例,可以通过共享相邻层之间注意力权重,从而减少注意力操作的执行次数,从而实现注意力机制加速;对于Transformer模型,解码器消耗时间是编码器时间的5倍,为此他指出可以用深编码器,浅解码器的网络结构实现编码器-解码器结构优化;他指出可以将softmax替换为argmax,可以实现softmax提速约10%。在翻译质量优化方面,可以采用基于组内置换的知识蒸馏、随机子层跳跃、权重蒸馏、动态层间线性结合的深层网络(DLCL)、基于常微分方程设计的高效网络(ODE)方法进行翻译质量提升。

科大讯飞AI研究院副院长刘俊华博士以“语音同传关键技术进展及展望”为题,对语音同传的关键技术进行了详细介绍,并结合讯飞在语音同传方面的研究和应用实践,给出当前语音同传技术面临的挑战和未来发展趋势分析等。他指出语音同传主要实现路径包含级联同传翻译和端到端同传翻译两种,其中需要解决的关键问题是如何决策什么时候应该翻译,为此讯飞提出了基于语篇约束的级联流式语音同传框架、端到端离线语音翻译、端到端语音同传框架。

刘俊华博士介绍,针对有监督的语音数据不足的现象,科大讯飞的语音同传团队通过语音自监督学习和TTS数据合成等技术,生成大规模的语音翻译平行数据,有效缓解了数据问题;同时提出了Cross Attention Augmented Transducer(CAAT)框架,CAAT框架通过引入多目标约束实现了延迟和效果之间的有效平衡,在IWSLT2021语音同传任务上取得了很好的效果。报告最后,刘俊华博士介绍了更多的语音同传落地应用产品,同时也展示了目前端到端的语音同传应用实例。

华为2012实验室文本机器翻译实验室主任杨浩博士分享了题为“移动互联网下等长翻译,同传翻译等机器翻译新形态的研究和实践”的主题报告,介绍了等长翻译的评价方法、模型架构以及针对不同大小移动设备下,等长机器翻译研究和实践。他指出,目前机器翻译倾向于多设备、多屏幕和实时性方面发展,然而不同的设备或屏幕又不尽相同,人们希望在每个设备上都能得到良好的视听体验,由此学术界提出了等长机器翻译任务。

杨浩博士介绍,等长翻译中的长度控制可以通过在自回归模型中引入长度受限的解码方法和长度敏感的约束搜索来解决,通过上述两种长度控制方法生成出符合长度要求的译文后,可以进一步采用集成模型或翻译模型对译文打分,进而进行重排序,选择最优译文。此外,也可以通过约束句子长度,在获得固定译文长度时利用非自回归模型生成定长译文,并取得更快的翻译速度。报告最后,杨浩博士展示了字幕翻译的实际场景,利用等长翻译可以很显著地提升用户的体验。

腾讯AI Lab高级研究员黄国平博士分享了题为“交互翻译中多任务模型探索与落地”的精彩报告。他首先介绍了交互翻译的具体任务——交互翻译模型需要根据人工对已生成译文的修改重新生成译文,从而实现人与机器在不断地交互过程中产生理想翻译结果的目的。因此与传统翻译相比,交互翻译能够实现翻译模型自动、及时且灵活地调整已输出的译文。

随后,黄国平博士介绍了其团队研发的交互翻译产品目前主要应用于严肃译文场景,例如大型组织机构的正式文件、决议等重要内容的翻译场景。这种严肃译文场景往往需要机器翻译具有可定制的个性化译文、快速生产可交付译文、持续融合已积累数据、计算资源成本尽量低的四个特点。最后,黄国平博士介绍了其团队整着力研发的多任务技术架构,会将前面提到的多种用户需求尽可能地集成在单一模型中,例如将个性化译文,翻译输入法、译文补全和翻译输入法的多种功能集成在单一模型中,该技术仍在攻克中,在严肃译文场景有着较好的应用前景。

字节跳动机器翻译业务负责人王明轩博士分享了题为“语音翻译中的语音表示学习”的主题报告,主要回顾近两年语音翻译的相关工作并分析了未来几年重要的挑战。报告中介绍了语音翻译中,端到端模式目前存在两个关键问题:语音数据稀缺问题、多模态表示差异问题。他指出端到端语音翻译有着错误传递低,简洁等优点,然而目前仍难以落地,主要原因是端到端语音翻译面临着数据稀缺、多模态表示差异等问题。

为了解决这个问题,王明轩博士介绍了两种方法,分别是词级的Manifold Mixup方法和句子级的Contrasive learning方法,从可视化的数据中能看到两种方法都有效拉近了语音表示和文本表示的距离,解决了原有的割裂问题。此外,王明轩博士还介绍了两种方法相应的消融实验,证明了方法的有效性。在报告后的提问和讨论中,王明轩博士也表示,虽然目前产业界仍然以级联模式为主,但端到端模式处于发展前期,未来有很大的上升空间。

在主题报告之后,会议进入第二阶段Panel环节,由东北大学计算机学院人工智能系主任、自然语言处理实验室主任、小牛翻译CEO肖桐博士主持。在此期间,与会嘉宾针对机器翻译的出路是在TO B还是TO C、如何使用错误驱动的方式提高机器翻译系统的性能、增量训练目前在机器翻译领域的效果如何等问题进行了充分交流和探讨。(panel环节问答及在线答疑等干货内容详见后续小牛翻译论坛报道2)

2023-11-23

2023-11-23