新知榜官方账号
2023-07-01 11:04:33
在Nvidia今天的语音人工智能峰会上,该公司宣布了其新的语音人工智能(AI)生态系统,该生态系统是通过与MozillaCommonVoice合作开发的。该生态系统专注于开发众包多语言语音语料库和开源预训练模型。
Nvidia和MozillaCommonVoice旨在加速自动语音识别模型的发展,该模型普遍适用于全球每种语言的使用者。Nvidia发现标准语音助手,如AmazonAlexa和GoogleHome,支持不到1%的世界口语。为了解决这个问题,该公司旨在提高语音AI中的语言包容性,并扩大全球和资源匮乏语言的语音数据的可用性。
英伟达正在加入Meta和谷歌已经在进行的一场竞赛:最近,两家公司都发布了语音AI模型,以帮助说不同语言的人之间进行交流。Google的语音到语音AI翻译模型TranslationHub可以将大量文档翻译成多种不同的语言。谷歌还刚刚宣布,它正在构建一个通用语音翻译器,经过400多种语言的培训,并声称它是“当今语音模型中最大的语言模型覆盖率”。同时,MetaAI的通用语音翻译器(UST)项目有助于创建AI系统,实现跨所有语言的实时语音到语音翻译,即使是那些口语但不常用的语言。
面向全球语言用户的生态系统根据Nvidia的说法,语音AI的语言包容性具有全面的数据健康益处,例如帮助AI模型了解说话者的多样性和噪声谱。新的语音AI生态系统可帮助开发人员构建、维护和改进语音AI模型和数据集,以实现语言包容性、可用性和体验。用户可以在MozillaCommonVoice数据集上训练他们的模型,然后将这些预训练模型作为高质量的自动语音识别架构提供。然后,全球其他组织和个人可以调整和使用这些架构来构建他们的语音AI应用程序。
“人口多样性是捕捉语言多样性的关键,”Nvidia产品经理CarolinedeBritoGottlieb说。“有几个重要因素会影响语音变化,例如服务不足的方言、社会方言、口音。通过这种合作伙伴关系,我们的目标是创建一个数据集生态系统,帮助社区为任何语言或上下文构建语音数据集和模型。”
MozillaCommonVoice平台目前支持100种语言,拥有来自全球500,000名贡献者的24,000小时语音数据。最新版本的CommonVoice数据集还包含六种新语言——Tigre、MeadowMari、Bengali、TokiPona和Cantonese,以及来自女性演讲者的更多语音数据。通过MozillaCommonVoice平台,用户可以通过将句子录制为短语音片段来捐赠他们的音频数据集,Mozilla会在提交时对其进行验证以确保数据集质量。
相关工具
相关文章
推荐
中国首款3A游戏上线,《黑神话:悟空》出圈!
2024-08-21 13:46
盘点15款AI配音工具,短视频配音有救了!
2024-08-12 17:11
短视频文案没创意?10大AI写作工具来帮你!
2024-08-05 16:23
Midjourney发布V6.1版本,我已分不清AI和现实了!
2024-08-01 15:03
我发现了一款国产AI绘画神器,免费易上手!
2024-07-25 16:40
7位AI考生做今年高考题,能过一本线吗?
2024-07-19 17:17
世界上第一所AI学校来了,80亿人只需要1位老师?
2024-07-18 17:12
Sora首部AI广告片上线,广告从业者危险了!
2024-06-27 13:44
OpenAI与中国说拜拜,国产AI如何接棒?
2024-06-26 15:18
人与AI会产生爱情吗,专家发话了!
2024-06-17 17:28