AI语言能力排行榜出炉:阿里巴巴全球第二,中国BAT三席

新知榜官方账号

2023-07-01 08:56:50

背景

咨询机构Gartner发布《云AI开发者服务关键能力报告》,对全球云服务商的AI能力做了排行。语言AI这一项,第一名毫不意外是谷歌。第二名比较惊喜,是阿里巴巴。这是榜单发布以来,中国公司在该领域第一次进入全球前三。全球前十中,中国的BAT占了三席,成绩可谓是瞩目。

阿里巴巴在语音和语义领域的技术积累

阿里云上的AI能力,主要包括:阿里在语音识别、自然语言生成/语音合成、语言理解/处理、文本分析这几项关键能力都获得了最高分。阿里云所依托的,是达摩院在语音AI领域的深厚积累。

达摩院在语音AI领域最早以语音识别技术起家,技术能力涵盖语音识别声学模型和基础框架、说话人区分、语音合成声学模型和声码器、口语语言处理、联合优化的声学前端等。2019年,阿里语音AI曾被MIT评选为当年度的“十大突破技术”,这背后的技术能力,就来自于达摩院。

阿里的语音AI能在没有语种信息的前提下,大幅提升中英文混说场景下的识别性能。例如,借鉴混合专家系统(Mixture of Experts)的思想,在端到端语音识别模型中,对中文和英文分别设计了一个子网络,最后通过门控模块对每个子网络的输出进行加权,从而使模型在中文、英文、中英文混说场景下都能取得比较好的效果。此外,达摩院还打造了一套端到端方言自由说语音识别系统,可以识别14种常用方言,并且保证纯中文相对于单语模型的识别性能基本不降。

除了语音AI技术之外,阿里在语义层面同样形成了一套强大的技术体系。达摩院的阿里的大规模预训练语言模型体系,拥有阅读、写作、翻译、问答、搜索、摘要生成、对话等多种能力。通过与具体任务、应用场景的结合,逐层孵化“中模型”、“小模型”。在大模型体系基础上,达摩院语言技术实验室先后孵化了一系列“中模型”,包括:通用预训练模型StructBERT、生成式预训练模型PALM、多语言预训练模型VECO、超大中文预训练模型PLUG、多模态预训练模型mPLUG、结构化预训练模型StructuralLM、预训练对话模型SPACE、表格预训练模型STAR 等。这些模型各有专长,例如StructBERT可以让机器更好地掌握人类的语法、理解自然的语言;多语言预训练模型VECO能够识别多种语言,曾拿下国际权威多语言榜单XTREME排名第一;多模态预训练模型mPLUG在视觉问答(VQA)任务上首次超过人类结果;对话预训练模型SPACE在10多个对话国际榜单和数据集上取得SOTA。基于AliceMind技术,达摩院先后斩获了35个冠军,在某些领域的水平已经非常接近人类对语言理解的程度了。

语音语义技术的历史进程和未来应用

语音技术最早可以追溯到1952年,贝尔实验室的Davis等人研制出了世界上第一个能识别10个英文数字发音的实验系统Audry,从此拉开了语音识别发展的序幕。语义技术更是可以追溯到1947年,当时英美科学家联手提出了利用计算机进行语言自动翻译的设想,机器翻译的诞生也正意味着打开了语义发展的大门。各界的纷纷投入,也让工业界诞生了众多“史诗级”的产品,例如苹果在2011年发布的Siri,以及后来亚马逊、谷歌、微软等推出的Alexa、GoogleAssistant、Cortana等。

近几年Transformer、Bert等技术的爆发,极大地推动了语音语义技术的发展。未来任何硬件终端都可以集成语言AI技术,这样的应用空间是巨大的,这也正是国内外学者、科技巨头纷纷发力于此的原因。语音语义已然是普通人“唾手可用”的技术。例如,达摩院的机器翻译技术每天为国内200万中小商家翻译上亿文字,让不懂英语和小语种的商家也能把国货卖到全世界。另外,去年年中,北京首都机场和大兴机场均开通了语音购票的服务,只需要乘客张张嘴说出目的地,便可以在1.6秒内快速完成选站。未来,语音语义技术将逐渐向人类逼近,带来更多的应用和变革。

本页网址:https://www.xinzhibang.net/article_detail-3758.html

寻求报道,请 点击这里 微信扫码咨询

关键词

AI语言能力 排行榜 阿里巴巴 中国BAT

分享至微信: 微信扫码阅读

相关工具

相关文章