依图宣布修个“语音”双学位,出击语音领域,全球最大的中文开源数据库AISHELL-2表现优异

新知榜官方账号

2023-11-11 16:15:15

近日,AI公司依图宣布修个“语音”双学位,出击语音领域。依图联合微软Azure云推出依图语音开放平台,携手华为发布“智能语音联合解决方案”。

依图的入局成绩单源自全球最大的中文开源数据库AISHELL-2。该数据库表现中,依图短语音听写的字错率(CER)为3.71%,比之原最好成绩还好20%,大幅刷新纪录。

依图在具体表现中,主要围绕第三方的近场口音测试集、近场安静聊天测试集、语音节目测试集、电话测试集、远场测试集,并拿出了字错率(CER)几乎全部在15%以下的成绩。其中,在AISHELL2-2018A-EVAL数据集中,依图的识别准确率达96.29%,字错率3.71%,比原最好成绩高出20%。

依图开启语音征程,自然而然。因为语音识别是AI理解世界最重要的组成部分,听说读写必要条件。语音识别是人人交互,人机交互最重要的入口。而且之前依图一直都有涉猎,语音和语义的相关技术之前在其医疗的相关产品中有过展示,只是没有公布。现在发布开放平台,一方面开放能力让开发者有更多选择,另一方面也是进一步探索语音业务的商业化发展。此外,除了对外,依图语音技术马上也会在医疗等产品中进一步大展拳脚。

依图此次开放的语音识别API,先从短语音听写启动,可以将时长不超过30秒的语音转写成文字,识别字错率小于3%,再用NLP辅助,进一步降低字错率。然后未来再图谋长语音转写、实时语音转写。

依图坦承,当前做语音的厂商非常多,但是目前为止都没有拿出一个特别好的语音识别产品。从技术性能来说,字错率曲线抖动越小,算法的场景通用性越好。综合各场景测试的结果,业界主流算法中,依图和讯飞的算法字错率抖动相对较小。依图认为,语音的发展需要一定的语义的把控。语音识别的真正威力,肯定要在大量语义需求后出现。

此次依图交出首份入学成绩单,但相比视觉,AI语音还远远远未达到“超越人类”。依图方面也强调,作为语音行业新生,还有很多需要学习之处,但当前一试,也给了他们极大信心。他们预计,在未来6个月到12个月,语音识别技术的算法性能将呈指数级增长,更多的场景将被解锁,为行业应用带来更大的价值。

依图语音领队此次代表依图宣布语音事宜的是依图科技首席创新官吕昊。依图是一家估值近30亿美元,涉足视觉、芯片和语音的公司。

本页网址:https://www.xinzhibang.net/article_detail-19690.html

寻求报道,请 点击这里 微信扫码咨询

关键词

依图 语音 AI公司 华为 AISHELL-2 中文开源数据库

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯