Meta发布了一款突破性的语音生成AI模型Voicebox

新知榜官方账号

2023-10-11 18:12:29

Meta发布了一款突破性的语音生成AI模型Voicebox

Meta介绍了一种「突破性」的生成式语音系统,它可以合成六种语言的语音,执行噪声消除、内容编辑、风格转换和多样化样本生成。Voicebox是第一个没有经过专门针对语音生成的训练,却可以泛化到语音生成任务的模型。Voicebox可以创建多种样式的语音输出,包括从头开始创建输出和修改给定的样本。在跨语言风格迁移任务上,Voicebox优于YourTTS,将平均词错率从10.9%降低到5.2%,将音频相似度从0.335提高到0.481。

Voicebox基于一种称为流匹配(FlowMatching)的方法,该方法已被证明可以改进扩散模型。在生成效果方面,Voicebox的可懂度(词错率:1.9%VS5.9%)和音频相似度(0.681VS0.580)优于当前英文语音生成SOTA模型VALL-E,并且速度快了20倍。Voicebox在词错率指标上的表现优于Vall-E和YourTTS,实现新的SOTA。在英语和多语言基准的音频风格相似度指标上,Voicebox都取得了新的最佳结果。

Voicebox基于流匹配(FlowMatching)模型,这是Meta在非自回归生成模型方面的最新进展,其可以学习到文本和语音之间高度非确定性的映射关系。非确定性映射很有用,因为这能让Voicebox学习不同的语音数据而无需仔细标注这些变体。也就是说,Voicebox可以在更多样化的数据上训练,因此可使用数据的范围也大得多。Meta训练Voicebox时使用的数据来自英语、法语、德语、西班牙语、波兰语、葡萄牙语这六种语言,包含50000小时的录音和转录文本以及公共领域的有声书。

Voicebox的上下文学习能力让它可以在音频录音中生成无缝衔接的片段。要是音频中出现了被噪声污染的片段,它也可以为其重新合成,甚至无需重新录音就能替换原音频中说错的词句。用户可以辨别原始音频中被噪声(比如犬吠声)污染的片段,然后将其裁剪下来,再指示Voicebox重新生成该片段。这项能力有望让音频编辑变得非常简单,就像现在流行的图像编辑工具调整图像一样。Voicebox的这种多功能性使其可以很好地执行多种不同任务,包括:基于语境的文本转语音合成、跨语言风格迁移、语音降噪和编辑、多样化的语音采样等。

Meta的实验结果表明,基于Voicebox合成语音训练的语音识别模型的表现几乎不逊于使用真实语音训练的模型——错误率仅高了1%;而要是使用之前的文本转语音模型合成的数据训练,错误率会提升45%-70%。Meta表示,Voicebox作为首个能成功执行任务泛化的高效的多功能模型,将开创一个语音生成式AI的新时代。但Meta也没有否认这项技术可能被误用乃至被恶意使用。为了应对这种可能性,降低潜在的风险,Meta还构建了一种分类器,其宣称可有效分辨真实语音和VoiceBox生成的音频。

本页网址:https://www.xinzhibang.net/article_detail-16399.html

寻求报道,请 点击这里 微信扫码咨询

关键词

Meta 语音生成 AI模型

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯