新知榜官方账号
2023-07-22 02:26:56
近期多个国际学术顶会中稿结果陆续公布,其中火山翻译团队有数篇论文被AAAI2022,ICASSP2022,ICLR2022,ACL2022等会议收录。本文选取其中6篇进行简单介绍。
本文研究非自回归机器翻译。非自回归翻译模型通过不考虑目标端词之间的关系建模来提升翻译的速度,但是其翻译质量通常会有所下降。本文改进了常用的Transformer模型,在翻译的质量的同时,保持了速度的加成。具体来说,本文在Transformer的解码器的每层上进行预测,并把预测的结果传递给下一层。另外,本文指出对每一层都进行监督学习的必要性,同时提出了更加高效的训练方法。在实验结果上,本文提出的模型可以在三个常用的翻译数据集上击败了自回归模型,并保持了大约15倍的加速。
多语言机器翻译旨在用一个模型实现多方向的翻译功能。目前已有的多语言模型大多基于Transformer建模,受限于翻译性能和推理速度。在这篇论文中,我们提出一个叫做switch-GLAT的非自回归多语言翻译模型。给定一个源语言句子,switch-GLAT可以自动生成上下文相关的code-switch translations,从而做code-switch back-translation,这个过程可以极大地提升模型翻译性能。此外,得益于其并行解码器,switch-GLAT翻译过程非常高效。实验结果显示我们的switch-GLAT可以显著打败multilingual Transformer,同时提升翻译速度至6.6倍。
标点符号修复任务旨在为自动语音识别系统(ASR)的输出文本提供正确的标点符号。而以往的标点修复模型,要么只使用文本信息,要么需要使用音频,而真实场景下,系统接触的句子往往是有音频和无音频的混合体:即存在混合模态问题。本文提出了一个统一的多模态标点修复框架,命名为UniPunc,可以给混合模态的语句打标点。实验证明UniPunc比各种SOTA至少高出0.8的总体F1分数,并且UniPunc的方案在模态缺失的语料上具有普适性。
在本文中,我们提出了MoSST,这是一种简单而有效的用于流式语音翻译的方法。给定一个通常很长的语音序列,该方法在编码器-解码器模型中集成了一个高效的单调分割模块,以增量地积累声学信息并检测正确的语音单元边界。在MuST-C数据集的多个翻译方向上的实验表明,该方法优于现有方法,并在翻译质量和延迟之间取得了更优的权衡。
在本文中,我们提出了STMM,一种简单有效的用于语音翻译的方法。在训练过程中,通过跨模态Mixup生成同时包含语音和文本的序列,输入模型并预测翻译。在此基础上,引入一个自我学习框架,使模型根据语音序列和Mixup序列的输出尽可能接近。在MuST-C数据集8个翻译方向上的实验表明,该方法在翻译质量上相比baseline取得了显著的提升。
本文不打算针对篇章级机器翻译提出新的模型方法。相反,我们回归到经典的Transformer模型,并希望回答以下问题:对于篇章级机器翻译,当前的模型是否已具备了足够的能力?有趣的是,我们观察到,只要使用合适的训练技巧,原始的Transformer模型就可以在篇章级机器翻译上取得良好的效果(哪怕是超2000字的长篇章)。我们在6种语言的9个篇章级数据集和2个句子级数据集上评估了这个模型和相关的几种方法。实验表明,篇章级Transformer模型在一系列综合指标上都优于句子级模型和许多先前的方法,包括BLEU、4项词级别指标、3项本文新提出的辅助语言学指标,与人工评估。
以上是为大家精选的火山翻译研究员在近期顶会中被收录的论文。论文详细内容仍在继续更新,欢迎继续关注「火山翻译」,了解论文最新进展~
相关工具
相关文章
推荐
幻舟 AI:动画创作领域的革新力量
2024-12-27 16:06
幻舟 AI:开启纪录片创作新征程
2024-12-27 16:03
幻舟 AI:教育短视频创作的得力助手
2024-12-27 15:59
幻舟 AI:影视创作多领域的创新利器
2024-12-27 15:55
幻舟 AI:影视创作多领域的创新利器
2024-12-27 15:51
幻舟 AI:影视创作的变革引擎
2024-12-27 15:45
中国首款3A游戏上线,《黑神话:悟空》出圈!
2024-08-21 13:46
盘点15款AI配音工具,短视频配音有救了!
2024-08-12 17:11
短视频文案没创意?10大AI写作工具来帮你!
2024-08-05 16:23
Midjourney发布V6.1版本,我已分不清AI和现实了!
2024-08-01 15:03