Meta发布全新语音生成AI模型VoiceBox,支持多种任务和多样化语音采样

新知榜官方账号

2023-06-29 20:53:07

Meta发布全新语音生成AI模型VoiceBox

近日,Meta宣布发布全新的语音生成AI模型——VoiceBox。它是一个端到端的神经网络模型,不需要任何人工特征或先验知识,就可以直接从文本生成原始的音频波形。

VoiceBox还能够根据角色的外貌、性别、年龄等特征,自动调整语音的参数,使之能够为元宇宙中的NPC角色或虚拟助理生成逼真的配音。

语音生成AI的重要领域

语音生成是人工智能的一个重要领域,它可以让机器或虚拟世界里面的NPC角色用人类的声音说话。然而,要让NPC角色生成自然而富有表现力的语音,仍然是一个挑战。传统的语音合成系统通常需要大量的人工干预和专业知识,才能调整声音的质量和风格。此外,这些AI模型往往只能生成单一的声音,而不能根据不同的文本和情境,切换不同的说话者或情感。

VoiceBox的突破性进展

近日,Meta的AI研究人员在语音生成AI方面取得了突破性的进展,发布了语音生成AI模型——VoiceBox。它是第一个能够在没有专门训练数据集或预先定义任务目标情况下,完成任何文本到语音任务,并且能够在给定单独语音样本情况下,以说话者原始声音朗读后面的文本内容。

VoiceBox能以各种各样的风格创建输出,它既可以从零开始创建输出,也可以修改给定的样本。但是,VoiceBox产生的不是图片或文本段落,而是高质量的音频。

VoiceBox的特点

VoiceBox使用一种新的方法,只从原始音频和相应的转录中学习。与音频生成的自回归模型不同,VoiceBox可以修改给定样本的任何部分,而不仅仅是给定音频的末尾。VoiceBox基于一种称为FlowMatching的方法,该方法已被证明可以改善扩散模型。

VoiceBox在零射击文本到语音方面超越了当前最先进的英语模型VALL-E,无论是在可理解性还是在音频相似性方面都是如此,同时速度快达20倍。对于跨语言风格转换,VoiceBox超越了YourTTS,将平均词错误率从10.9%降低到5.2%,并将音频相似性从0.335提高到0.481。VoiceBox在词错误率方面实现了新的最先进结果,超越了Vall-E和YourTTS。

VoiceBox还可以根据文本中的内容和情感,以及用户指定的元数据(如说话者、语言、性别、年龄等),动态地调整声音的风格和属性。这意味着VoiceBox可以生成多种不同的声音,并在同一段文本中实现无缝的声音切换。

VoiceBox的多种任务

VoiceBox的强大功能能够支持多种任务:

  • 上下文文本到语音合成:使用短至两秒的音频样本,VoiceBox可以匹配样本的音频风格并将其用于文本到语音的生成;
  • 语音编辑和降噪:VoiceBox可以重新创建被噪音打断的部分语音或替换说错的词,而无需重新录制整个语音,就像用于音频编辑的橡皮擦一样;
  • 跨语言风格转换:VoiceBox目前支援英语、法语、德语、西班牙语、波兰语和葡萄牙语,如给定一段文本,能够用上述支援语言阅读翻译后的文本内容。这个功能预计能帮助人们能够用自己的声音说任何外语(即使他们不会说该种外语);
  • 多样化的语音采样:从不同的数据中学习后,VoiceBox可以生成更能代表人们在现实世界中使用上述六种语言的谈话方式的语音。未来,此功能可用于语音生成合成数据,以帮助更好地训练语音助手模型。

VoiceBox的未来应用场景

VoiceBox的强大功能能够支持多种应用场景:

  • 元宇宙中为虚拟助理或NPC角色提供自然和多样的语音配音;
  • 元宇宙中的虚拟助手和NPC角色发出自然的声音,为创作者提供新的工具来轻松创建和编辑视频的音轨等。

例如,在一个冒险游戏中,VoiceBox可以为玩家遇到的各种角色生成不同的声音,如勇敢的骑士、神秘的巫师、可爱的精灵等。这些声音不仅能够反映角色的性格和情绪,还能够适应不同的场景和情境,如战斗、对话、歌唱等。VoiceBox还可以根据玩家的选择和行为动态地改变语音内容和风格,增加游戏的互动性和趣味性。

Meta的声明

Meta表示,VoiceBox也可以让元宇宙中的虚拟助手和NPC角色发出自然的声音,为创作者提供新的工具来轻松创建和编辑视频的音轨等。但现阶段暂不计划向公众发布VoiceBox应用,以及它的开源代码,因为担心像目前AI换脸技术被滥用在诈骗上一样。Meta意识到这项工具带来滥用和被用来犯罪的可能性,声称将为此构建一个分类器,以区分真实的音频和VoiceBox生成的语音,以减轻这些未来可能存在的风险。

本页网址:https://www.xinzhibang.net/article_detail-2900.html

寻求报道,请 点击这里 微信扫码咨询

关键词

Meta VoiceBox 语音生成 AI模型 多样化语音采样

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯