腾讯AILab团队在ACL-IJCNLP2021创纪录,超过50篇论文被接收

新知榜官方账号

2023-07-06 13:49:17

腾讯AILab团队在ACL-IJCNLP2021创纪录,超过50篇论文被接收

近日,自然语言处理(NLP)领域顶级会议ACL-IJCNLP2021公布了论文接收情况。腾讯有超过50篇论文被接收,又一次刷新了论文录取数量纪录,领跑国内业界AI研究第一梯队。本年度腾讯ACL-IJCNLP2021入选论文中,有27篇来自腾讯AILab团队,21篇来自微信AI团队,腾讯云AI、腾讯天衍实验室、腾讯医典AI,腾讯云智能平台产品部等团队也有多篇论文入选。这些论文的研究方向涵盖文本理解、文本生成、智能对话、机器翻译、信息抽取、信息检索等多个NLP的子领域。

本届大会,腾讯AILab与香港中文大学合作的论文《NeuralMachineTranslationwithMonolingualTranslationMemory》(基于单语翻译记忆的神经网络机器翻译技术)被评为「杰出论文」(OutstandingPapers),作者包括DengCai、YanWang、HuayangLi、WaiLam和LemaoLiu。获评「杰出论文」代表了国际学术界对该研究在机器翻译创新、前沿和应用等多个角度的高度认可。

ACL-IJCNLP是NLP领域知名的学术会议,也是人工智能的重要研究阵地。本届大会有3350篇论文投稿,来自中国的学者投稿数最多,占近40%,其次是美国,占25%。

单语翻译记忆技术助力机器翻译提升准确率

本篇文章介绍了腾讯AILab团队在机器翻译方面的杰出论文《NeuralMachineTranslationwithMonolingualTranslationMemory》,该论文利用单语翻译记忆技术帮助机器翻译模型提升翻译准确率,取得了显著成果。

让计算机学会翻译,当下常用深度学习的方法,即让算法模型通过学习大量数据进行训练,然后通过一定的赏罚机制让它们逐渐学会正确的翻译。在这个过程中,为了提升翻译准确率,最新研究方向是——研究员们会给模型增加一个自动「搜索」的能力,让模型搜索语料库中的相关的数据,来辅助算法模型做更准确的翻译,这一技术又叫TranslationMemory(翻译记忆)。

然而,过去辅助翻译的语料库中的数据都需要是双语搭配好的,比如,在英汉翻译中,库中存下的数据都是中英文匹配好的,类似于人类学习时使用的「真题」,但是「真题」的数量往往是非常有限且成本昂贵的。

现在,通过腾讯AILab开创性的研究,可以让机器从海量单语数据,比如中文翻译成英文时,可以搜索任意的英文数据作为推荐,在这个基础上辅助翻译。这一技术相当于将翻译任务从原本需要背题的「闭卷考试」变成了「开卷」。相比双语语料来说,单语的语料几乎是取之不尽用之不竭的。因而,机器翻译的想象空间一下子就变大了。在翻译准确率的提升上,这篇「杰出论文」取得了显著的成果——在不做模型建构改动的情况下,翻译准确率提升了2到3个BLEU值。这对于机器翻译是一个大的突破,一般来说,取得0.5个BLEU值的提升就足以算是一个优秀的研究了。并且,这些提升是在不消耗额外的计算资源下实现的。

接下来,通过AILab面向行业发布的国内首个线上交互翻译系统TranSmart,该技术也会得到更加充分的应用。此前,TranSmart成功支持了包括联合国文件署、Memsource、华泰证券、店小秘、阅文集团等在内的B端客户以及腾讯内部众多的翻译业务。

NLP技术的发展趋势和应用前景

机器翻译是NLP领域一个经典且通用的任务,很多研究都将机器翻译当作试金石,在机器翻译上验证新的模型和算法的有效性,以促进NLP技术的突破。近年来,随着深度学习技术的成熟,NLP已经取得了长足的进步。用腾讯NLP研究员王琰的话说,“以前觉得可以做的事,现在基本都已经解决了;以前不敢想象的事,现在已经可以尝试了”。

•已经基本解决的事:情感分析、文本分类、搜索以及基于自然语言的推荐等,目前已经相对成熟。

•以前不敢想象现在可以尝试的事:对话与文本生成、深度语义理解等。比如,机器人与人的多轮自然对话。NLP技术已经基本完成从「不可用」到「可用」的转变。

与人类相比,如果一个普通人就能轻松做好的事情,NLP技术就能做得还不错,比如情感分析。但如果是一个普通人必须受过很好的训练才能做好的任务,比如翻译和多轮对话,那么NLP模型就比较难学会。当前,NLP技术距离「好用」还有一定的距离,在准确率和使用体验方面还有较大的提升空间。不过,一个共识是,这也是现阶段所有NLPer工作的意义和价值所在——挑战一个一个解决,机会自然就会出现。腾讯的NLP团队对此有着强大的信心:「我们的NLP技术不仅在国内是领先的,在国际上也是绝对第一梯队的。」

本页网址:https://www.xinzhibang.net/article_detail-6409.html

寻求报道,请 点击这里 微信扫码咨询

相关工具

相关文章