新知榜官方账号
2023-06-29 20:53:07
近日,Meta宣布发布全新的语音生成AI模型——VoiceBox。它是一个端到端的神经网络模型,不需要任何人工特征或先验知识,就可以直接从文本生成原始的音频波形。
VoiceBox还能够根据角色的外貌、性别、年龄等特征,自动调整语音的参数,使之能够为元宇宙中的NPC角色或虚拟助理生成逼真的配音。
语音生成是人工智能的一个重要领域,它可以让机器或虚拟世界里面的NPC角色用人类的声音说话。然而,要让NPC角色生成自然而富有表现力的语音,仍然是一个挑战。传统的语音合成系统通常需要大量的人工干预和专业知识,才能调整声音的质量和风格。此外,这些AI模型往往只能生成单一的声音,而不能根据不同的文本和情境,切换不同的说话者或情感。
近日,Meta的AI研究人员在语音生成AI方面取得了突破性的进展,发布了语音生成AI模型——VoiceBox。它是第一个能够在没有专门训练数据集或预先定义任务目标情况下,完成任何文本到语音任务,并且能够在给定单独语音样本情况下,以说话者原始声音朗读后面的文本内容。
VoiceBox能以各种各样的风格创建输出,它既可以从零开始创建输出,也可以修改给定的样本。但是,VoiceBox产生的不是图片或文本段落,而是高质量的音频。
VoiceBox使用一种新的方法,只从原始音频和相应的转录中学习。与音频生成的自回归模型不同,VoiceBox可以修改给定样本的任何部分,而不仅仅是给定音频的末尾。VoiceBox基于一种称为FlowMatching的方法,该方法已被证明可以改善扩散模型。
VoiceBox在零射击文本到语音方面超越了当前最先进的英语模型VALL-E,无论是在可理解性还是在音频相似性方面都是如此,同时速度快达20倍。对于跨语言风格转换,VoiceBox超越了YourTTS,将平均词错误率从10.9%降低到5.2%,并将音频相似性从0.335提高到0.481。VoiceBox在词错误率方面实现了新的最先进结果,超越了Vall-E和YourTTS。
VoiceBox还可以根据文本中的内容和情感,以及用户指定的元数据(如说话者、语言、性别、年龄等),动态地调整声音的风格和属性。这意味着VoiceBox可以生成多种不同的声音,并在同一段文本中实现无缝的声音切换。
VoiceBox的强大功能能够支持多种任务:
VoiceBox的强大功能能够支持多种应用场景:
例如,在一个冒险游戏中,VoiceBox可以为玩家遇到的各种角色生成不同的声音,如勇敢的骑士、神秘的巫师、可爱的精灵等。这些声音不仅能够反映角色的性格和情绪,还能够适应不同的场景和情境,如战斗、对话、歌唱等。VoiceBox还可以根据玩家的选择和行为动态地改变语音内容和风格,增加游戏的互动性和趣味性。
Meta表示,VoiceBox也可以让元宇宙中的虚拟助手和NPC角色发出自然的声音,为创作者提供新的工具来轻松创建和编辑视频的音轨等。但现阶段暂不计划向公众发布VoiceBox应用,以及它的开源代码,因为担心像目前AI换脸技术被滥用在诈骗上一样。Meta意识到这项工具带来滥用和被用来犯罪的可能性,声称将为此构建一个分类器,以区分真实的音频和VoiceBox生成的语音,以减轻这些未来可能存在的风险。
相关工具
相关文章
相关快讯
推荐
中国首款3A游戏上线,《黑神话:悟空》出圈!
2024-08-21 13:46
盘点15款AI配音工具,短视频配音有救了!
2024-08-12 17:11
短视频文案没创意?10大AI写作工具来帮你!
2024-08-05 16:23
Midjourney发布V6.1版本,我已分不清AI和现实了!
2024-08-01 15:03
我发现了一款国产AI绘画神器,免费易上手!
2024-07-25 16:40
7位AI考生做今年高考题,能过一本线吗?
2024-07-19 17:17
世界上第一所AI学校来了,80亿人只需要1位老师?
2024-07-18 17:12
Sora首部AI广告片上线,广告从业者危险了!
2024-06-27 13:44
OpenAI与中国说拜拜,国产AI如何接棒?
2024-06-26 15:18
人与AI会产生爱情吗,专家发话了!
2024-06-17 17:28