Meta发布全新语音生成AI模型VoiceBox，支持多种任务和多样化语音采样

新知榜官方账号

2023-06-29 20:53:07

Meta发布全新语音生成AI模型VoiceBox

近日，Meta宣布发布全新的语音生成AI模型——VoiceBox。它是一个端到端的神经网络模型，不需要任何人工特征或先验知识，就可以直接从文本生成原始的音频波形。

VoiceBox还能够根据角色的外貌、性别、年龄等特征，自动调整语音的参数，使之能够为元宇宙中的NPC角色或虚拟助理生成逼真的配音。

语音生成AI的重要领域

语音生成是人工智能的一个重要领域，它可以让机器或虚拟世界里面的NPC角色用人类的声音说话。然而，要让NPC角色生成自然而富有表现力的语音，仍然是一个挑战。传统的语音合成系统通常需要大量的人工干预和专业知识，才能调整声音的质量和风格。此外，这些AI模型往往只能生成单一的声音，而不能根据不同的文本和情境，切换不同的说话者或情感。

VoiceBox的突破性进展

近日，Meta的AI研究人员在语音生成AI方面取得了突破性的进展，发布了语音生成AI模型——VoiceBox。它是第一个能够在没有专门训练数据集或预先定义任务目标情况下，完成任何文本到语音任务，并且能够在给定单独语音样本情况下，以说话者原始声音朗读后面的文本内容。

VoiceBox能以各种各样的风格创建输出，它既可以从零开始创建输出，也可以修改给定的样本。但是，VoiceBox产生的不是图片或文本段落，而是高质量的音频。

VoiceBox的特点

VoiceBox使用一种新的方法，只从原始音频和相应的转录中学习。与音频生成的自回归模型不同，VoiceBox可以修改给定样本的任何部分，而不仅仅是给定音频的末尾。VoiceBox基于一种称为FlowMatching的方法，该方法已被证明可以改善扩散模型。

VoiceBox在零射击文本到语音方面超越了当前最先进的英语模型VALL-E，无论是在可理解性还是在音频相似性方面都是如此，同时速度快达20倍。对于跨语言风格转换，VoiceBox超越了YourTTS，将平均词错误率从10.9%降低到5.2%，并将音频相似性从0.335提高到0.481。VoiceBox在词错误率方面实现了新的最先进结果，超越了Vall-E和YourTTS。

VoiceBox还可以根据文本中的内容和情感，以及用户指定的元数据（如说话者、语言、性别、年龄等），动态地调整声音的风格和属性。这意味着VoiceBox可以生成多种不同的声音，并在同一段文本中实现无缝的声音切换。

VoiceBox的多种任务

VoiceBox的强大功能能够支持多种任务：

上下文文本到语音合成：使用短至两秒的音频样本，VoiceBox可以匹配样本的音频风格并将其用于文本到语音的生成；
语音编辑和降噪：VoiceBox可以重新创建被噪音打断的部分语音或替换说错的词，而无需重新录制整个语音，就像用于音频编辑的橡皮擦一样；
跨语言风格转换：VoiceBox目前支援英语、法语、德语、西班牙语、波兰语和葡萄牙语，如给定一段文本，能够用上述支援语言阅读翻译后的文本内容。这个功能预计能帮助人们能够用自己的声音说任何外语（即使他们不会说该种外语）；
多样化的语音采样：从不同的数据中学习后，VoiceBox可以生成更能代表人们在现实世界中使用上述六种语言的谈话方式的语音。未来，此功能可用于语音生成合成数据，以帮助更好地训练语音助手模型。

VoiceBox的未来应用场景

VoiceBox的强大功能能够支持多种应用场景：

元宇宙中为虚拟助理或NPC角色提供自然和多样的语音配音；
元宇宙中的虚拟助手和NPC角色发出自然的声音，为创作者提供新的工具来轻松创建和编辑视频的音轨等。

例如，在一个冒险游戏中，VoiceBox可以为玩家遇到的各种角色生成不同的声音，如勇敢的骑士、神秘的巫师、可爱的精灵等。这些声音不仅能够反映角色的性格和情绪，还能够适应不同的场景和情境，如战斗、对话、歌唱等。VoiceBox还可以根据玩家的选择和行为动态地改变语音内容和风格，增加游戏的互动性和趣味性。

Meta的声明

Meta表示，VoiceBox也可以让元宇宙中的虚拟助手和NPC角色发出自然的声音，为创作者提供新的工具来轻松创建和编辑视频的音轨等。但现阶段暂不计划向公众发布VoiceBox应用，以及它的开源代码，因为担心像目前AI换脸技术被滥用在诈骗上一样。Meta意识到这项工具带来滥用和被用来犯罪的可能性，声称将为此构建一个分类器，以区分真实的音频和VoiceBox生成的语音，以减轻这些未来可能存在的风险。

本页网址：https://www.xinzhibang.net/article_detail-2900.html

寻求报道，请

关键词

Meta VoiceBox 语音生成 AI模型多样化语音采样

分享至微信：

相关工具

IBM Watson文字转语音

Voicemod

AI变声工具

TME Studio

腾讯音乐推出的智能音乐创作助手

Typecast

在线AI文字转语音生成工具

网易天音

网易推出的AI音乐创作平台

Play.ht

超真实在线AI语音生成

AI技术爱好者的新玩具：CloneVoice

傍晚时分，红霞、夕阳悬在天边，橘黄的光芒洒满大地。铁蛋推开窗户，迎面扑来的晚风吹拂着他的面颊，屋边的树叶在风中舞蹈，发出沙沙的声响。远处高楼大厦的轮廓在夕阳的照耀下若隐若现，天际线上，钢筋水泥的森林被渲染成了金红色，而近处的街道两旁，路灯才刚刚亮起来，在夕阳的余晖中显得有些刺眼。作为一名AI技术爱好

分类标签 AI技术CloneVoice人工智能

06-29 20:50

语音变声软件推荐

语音变声软件推荐如果你想在网络电话或聊天工具中增加趣味性，那么语音变声软件是不错的选择。下面介绍三款语音变声软件。MorphVOXProMorphVOXPro是一款非常有趣的软件，可以在上网用QQ、YY、Skype网络电话或者其他聊天工具进行语音聊天时随心所欲的变换你的声音。这款超强语音变声软件，免

分类标签语音变声软件MorphVOXProVoicemodVCSDiamond

06-29 20:48

AI诈骗：新型手段让骗子更难防，如何预防？

AI诈骗：新型手段让骗子更难防，如何预防？科技发展日新月异奈何骗子也不落伍玩出了新花样来跟随警察蜀黎了解一下吧~AI诈骗：“一键换脸，和你爱的明星合影”“大叔秒变萝莉御姐网红音”AI变声换脸应用玩法多样你有没有尝试过需要注意的是骗子也盯上了AI技术利用它玩起了“真假美猴王”AI诈骗常用手法第一种：声

分类标签 AI诈骗新型手段预防

06-29 20:38

AI换声技术带来的社会问题

AI换声技术带来的社会问题近年来，人们对AI深度伪造技术受到越来越多的关注，主要集中在视觉和听觉欺骗上。想象下AI换脸的可怕之处，前些年的Deepfake、ZAO技术再到最近的DALL·E2技术，如果不法分子利用这些技术进行诈骗，诱拐等违法行为时，我们又该如何防范？只需15-30秒的某人的声音，理论

分类标签 AI换声语音深度伪造社会问题

06-29 20:36

视频配音怎么做？推荐三种变声器适合配音用

视频配音怎么做？推荐三种变声器适合配音用想要做好一个视频配音，除了要靠专业配音员去录制，也可以利用智能的ai配音软件去搞定！下面就一起来看看都有变声器适合配音用的吧！其中第二种性价比更高，可以用的功能也很多，快来看看吧！1.自己录音，后期用视频剪辑软件去变声用手机或电脑软件将视频解说配音录制下来，然

分类标签视频配音AI配音变声器

06-29 20:34

搜狗AI录音笔C1Max，视频博主必备利器

搜狗AI录音笔C1Max，视频博主必备利器年轻的朋友们对如今流行的短视频肯定是再熟悉不过了，看到那些在镜头面前自信展现的人，肯定有不少年轻朋友也心动想要成为其中一员。视频博主这份工作对年轻人来说非常有吸引力，光鲜且有不少收入。如果你有兴趣成为一枚视频博主，但又觉得入门很难，那么今天的这款收音神器——

分类标签搜狗AI录音笔C1Max视频博主录音技术

06-29 20:32

AI语音技术：变声不是简单模仿，需要管住的是“模仿者”

AI语音技术：变声不是简单模仿，需要管住的是“模仿者”不久前，AI换脸的讨论还没结束，AI语音技术又进入人们的视线。这种被称为“变声技术”的语音合成技术，可以将任何人的声音转换为特定人的声音（Any-to-one）。那些曾经在影视作品中“一秒换声”的脑洞，如今成为了现实。在动漫世界里，主人公柯南可以

分类标签 AI语音技术变声技术语音合成技术

06-29 20:30

万能变声器及其他变声软件推荐

万能变声器及其他变声软件推荐传统的变声软件需要安装虚拟声卡才能使用，而且对系统和硬件都会造成影响。但是，万能变声器采用了云端处理技术，不需要安装虚拟声卡，不会对系统和硬件造成任何影响，而且非常易于使用。除了万能变声器之外，还有其他几款好用的变声软件，比如Voicemod和AmazingSlowDow

分类标签万能变声器VoicemodAmazingSlowDowner

06-29 20:28

了不起的人工智能

了不起的人工智能随着科学技术的不断发展，人工智能正逐渐变得越来越普及，AI的影响力也越来越大。无论是在商业、医疗、教育、科学研究等领域，人工智能都在发挥着重要的作用。ChatGPT、BingChat、Bard、AdobeFirefly、Whisper、LeiaPix、DALL-E、Midjourne

分类标签人工智能ChatGPTBingChatBardAdobeFireflyWhisperLeiaPixDALL-EMidjourneyStableDiffusionRunwayVoice.aiChatPDFElevenLabsKaiber

06-29 20:26

NVIDIA发布的RTXVoice软件体验及设置教程

NVIDIA发布的RTXVoice软件体验及设置教程前不久NVIDIA发布了一个RTXVoice软件，该软件可以利用AI识别来对音频进行处理，实现降噪的效果。经过体验过后，个人觉得NVIDIA依靠其硬件市场铺就的算力和用户基数，该AI降噪确实很有前景，但是就目前来看，该AI技术还属于“婴儿”阶段，对

分类标签 NVIDIARTXVoiceAI降噪音频处理GeForceRTXQuadroRTX

06-29 20:25