AI技术下的声音合成

新知榜官方账号

2023-06-29 19:29:34

AI技术下的声音合成

最近，一只“总统洋葱新闻”在Youtube和Reddit上引发了一波讨论。视频中，特朗普用它一贯懒散的声音播报了一组耐人寻味的新闻——“数据雨“：民主党人把太多数据存在运上，冷却后成为液体，最后通过降雨落下来，对地球生态造成巨大伤害。想要避免这种致命液体，你需要躲在屋里，不要出门。虽然内容荒唐，但整个视频中的声音效果非常真实，以至于不少网友在捧腹大笑的同时也开始调侃，“是不是很快就能接到总统给我打的广告电话了。”

再加上近期，“假脸”技术大肆盛行，与之配套的“假声音”上线后，更能生成无缝衔接的假视频，让假戏做足，真假难辨。靠换脸技术”出演”《射雕英雄传》的杨幂一键生成“假声音”关于变音技术，江湖上确实流传了几种，不过加持了机器学习和深度学习，这种技术不再是简单的语音滤波器。

跟”一键变脸“的deepfake软件一样，研究者们也开发了让不懂技术的同学直接易上手的变声软件。刚刚听到的这个声音就来自这样一个网站Modulate.ai。麻省理工科技评论的资深编辑WillKnight用其轻易就合成了不同的声音。创建这个网站的三个小伙伴，有两个来自麻省理工，还有一个来自加州大学洛杉矶分校。对于游客，这个网站给出了几个适用的声音，对于想定制名人声音的用户，还得通过官网给出的联系方式联系他们。据网站介绍，合成的声音是是采用神经网络训练来训练，具有低延迟性以及实时性。文摘菌试了一把，在网站的提供的接口处录下声音，选择你想要的“性别”或者“名人”，网站会很快生成你想要的声音。

此外，百度在18年的3月份曾经宣布，百度开发的新AI算法DeepVoice可以通过3.7秒钟的录音样本数据就能完美的克隆出一个人的声音。DeepVoice是百度AI研究院一个由深度神经网络构建的高质量语音转（TTS）系统。除了利用少量样本克隆声音外，系统还能将女性声音转变成男性，英式声音变成美式。

语音转语音的具体过程声音的直接转换是比较复杂的，因为一个人的“声音”不仅是由声带定义，声带只是声音的频率，具体来说，还取决于口音和说话风格。另外，音高会受胸腔的物理特性等的影响。这些影响作用在不同的层面上，发音决定了单词和短语是如何在几秒钟或几十秒内被识别出来。当开始合成语音时，技术人员主要会考虑三个因素。首先是生物因素，这些因素人们难以自行改变。第二，构建声音认同概念，即任何在语言下明显表现出来的同一性。有了这个定义，就可以很好的建立语音识别模型。第三，建立独立于上下文处理语音片段的模型，这个模型的好处是它比神经网络中所要处理的序列模型要简单的多，并且可以有效的降低语音处理延迟。

总的来说，所要建立的系统是：把一个说话人的声音的频率分布（frequencyprofile）换成另一个声音的频率分布，同时保持他们讲话的其余属性不变。所以，自然的将系统分为两个部分：1、语音识别2、语音转换。这两个部分最主要的区别是，是从语音转换到文本，还是从文本转换到语音。如果这两个部分独立运行，那么整个系丢失“情感模仿”。语音转文本和文本转语音同属一个极端的情况。语音转换必须使用媒介，由于系统只能给出语音，并且尝试在输出中再现输入的语句。

通过限制某时段通过系统的信息量，系统学习识别功能（identityfunction），这是系统的瓶颈。在从语音到文本到语音的情况下，瓶颈在于对输入的语音进行文本表示，因此系统必须进行一般性学习，才能根据文本生成可靠的语音。从通过机器学习构建这样一个系统的角度来看，出现瓶颈自然有其的道理。机器学习，特别是深度学习，当被训练来完成一项特定的任务时，一直表现得非常好。但是瓶颈自动编码器没有接受过语音转换的训练，他们接受的是自动编码训练。破解瓶颈的主要方法是调整信息瓶颈的带宽。例如文本中间表示，会丢失太多信息。文本可以使用情感标签或其他符号进行注释，但这些需要对监督数据着重进行手动注释。

具体的步骤：首先尝试在两种不同的损失函数上训练说话人标识符（identifie）：真实音频匹配扬声器配置文件和生成音频，以及真实音频匹配扬声器配置文件和真实音频的扬声器配置文件。使得说话人的标识符“寻找”说话人身份，否则它只能关注于检测生成的音频。在实践中，发现只有对两个损失函数中的第一个函数的训练才能起到同样的作用：说话人标识符首先学会区分真实的音频和生成的音频，然后随着生成器开始产生更高质量的输出，自然进化到使用说话人配置文件。在神经网络的输入层对说话人标识符的大小设置了惩罚。惩罚的大小是一个可调整的参数，通过训练效果进步明显与否，可以判断最优参数。对于真实和假音频，我们最好的训练倾向于快速收敛0.55的交叉熵，然后在大多数训练过程中慢慢爬过0.6。然后继续改进系统系结构，通过直接优化语音转换目标，通过一个新的说话人标识符，能够产生与目标声音紧密匹配的合成语音，同时保留了通常由瓶颈架构丢失的表达性。

AI合成大事件通过AI技术合成图片以及视频早已不新鲜，要说最著名的合成案例可能就是下面这个。这项技术由华盛顿大学SUPASORNSUWAJANAKORN等三人共同发明，他们坦言，之所以选用奥巴马做研究范例，是因为他的高清视频资源获取非常容易，并且不受版权限制。因此，研究小组用神经网络分析了数百万帧的视频，来确定奥巴马的面部表情如何变化。开口说话需要整个面部器官的协调，所以研究人员不仅分析了口型变化，还包括他的嘴唇、牙齿和下巴周围的皱纹，甚至还包括脖子与衣领。具体的操作过程是：研究人员采集了音频片段（原始音频文件），再把口型和新的音频文件剪辑匹配，再嫁接到新视频。

国内的科技公司也在这一领域各有千秋。拿导航用的语音来说，科大讯飞的董事长刘庆峰在2018世界机器人大会上表示，高德地图导航上面的林志玲、郭德纲的声音都是合成，其实都不是本人原音，而是由他们的机器来完成合成的，压根就不是本人录的。

本页网址：https://www.xinzhibang.net/article_detail-2865.html

寻求报道，请

关键词

分享至微信：

相关工具

幻舟AI

一站式AI影视创作平台

MetaVoice

AI实时变声工具

Resemble.ai

AI人声生成工具

Soundraw

AI音乐生成工具

ACE Studio

AI歌声合成工具，输入歌词与旋律即可生成宛如真人的歌声

Beatoven.ai

免版税AI音乐创建平台

中国式浪漫

中国式浪漫中国式的浪漫有着独特的韵味，充满了婉约而华贵的情感。从古至今，我们常常可以看到一些文艺作品中描绘的恋人们穿越古代的长廊，相互倾诉着深情而含蓄的爱意。这种浪漫，不单单是一种场景的表达，更多的是一种文化的传承。第一章：东方之美，婉约而华贵的爱在现代社会中，中国式的浪漫依然得以体现。例如，现代新

分类标签中国式浪漫东方之美传统与现代的碰撞

12-07 22:30

变声器电脑版哪个好用？主播同款变声器~

变声专家介绍随着吃鸡游戏大火，各路主播纷纷借助吃鸡游戏蹭热度，其中最火热的就是主播们使用变声器将男声变成女声来整蛊队友，这也让不少人在网上寻找好用且可以在吃鸡游戏里使用的变声器，那到底哪个变声器电脑版好用呢？感兴趣的小伙伴可以动动小手指接着往下滑动看看啦~~变声专家基本情况变声专家是海外软件AVVo

分类标签变声器电脑版主播变声器吃鸡游戏

11-29 16:59

人工智能“闻声识相”：如何通过声音识别人脸？

人工智能“闻声识相”：如何通过声音识别人脸？人工智能近年来发展迅速，其中“闻声识相”技术备受关注。该技术通过深度学习和跨模态检索技术，将人脸图像和语音音频片段分别输入人脸编码器网络和语音编码器网络，根据身份的平均损失为提取的特征值分配不同的权重，并过滤掉个性化样本，然后使用两级模态匹配更新神经网络参

分类标签人工智能算力算法数据闻声识相声音识别

11-29 16:58

八款AI智能软件，让你的工作效率倍增！

八款AI智能软件，让你的工作效率倍增！大家好！我叫阿志，做自媒体已有三年之久也做出了理想的成绩。今天我就分享我在用的八款AI智能软件，大部分是免费的哦。1. ChatGPTChatGPT是一款聊天机器人，不仅可以像人类一样聊天交流，还可以写邮件、写论文、写视频脚本，翻译、敲代码等，能够帮助我们提高工

分类标签 AI智能软件工作效率自媒体

11-28 08:43

StabilityAI推出StableAudio，用于AI制作音频生成工具

StabilityAI推出StableAudio，用于AI制作音频生成工具StabilityAI是一家专注于开源AI模型的创业公司，其旗下的StableDiffusion是如今最好的图片生成AI之一（另一个是midjourney）。最近，StabilityAI又推出了StableAudio，这是一款

分类标签 StabilityAIStableAudioAI制作音频潜在扩散模型

11-20 22:15

VoiceChanger「变声器」——让你的声音变得与众不同

VoiceChanger「变声器」是一款充满趣味性的手机应用程序，它提供了丰富多样的变声效果选择，只需轻点一下，你就可以轻松变换声音。从小萝莉到御姐音，再到神秘的幽灵和酷炫的机器人，只要你敢尝试，你的声音就可以变得与众不同。而且，它的界面设计独具匠心，简单又有趣，让变声过程变得更加乐趣无穷。除了给声

分类标签 VoiceChanger变声器语音编辑器

11-19 16:23

市面上那么多AI变声器到底该选哪个？某宝抖音里499、599、699调试变声到底值不值得？

市面上那么多AI变声器市面上的AI变声器其实都是同一个人制作的，只是换了不同的外观和声音模型。这个人制作的变声器是开源的，所以市面上出现了很多不同的变声器软件，它们的声音模型有免费的也有收费的。至于那些贵的离谱的收费模型，如果你有钱，可以购买，但如果你想免费使用，也有温柔御姐、俏皮萝莉等各种声音模型

分类标签 AI变声器某宝抖音调试变声

11-19 16:22

实时变音神器：入梦Ai变声器使用体验指南

实时变音神器：入梦Ai变声器使用体验指南入梦Ai变声器是一款实用的实时变音软件，能帮助用户轻松实现各种声音效果。该软件能够在录音、直播、游戏语音中实时变换声音，为用户提供更多声音选择。本文旨在让读者了解此类工具的存在，以防上当受骗，并非教导如何利用变声器欺骗他人。体验与使用运行入梦Ai变声器.exe

分类标签实时变音软件入梦AI变声器声音选择

11-19 16:21

大饼AI变声：声音创造的无限乐园

大饼AI变声：声音创造的无限乐园声音不再局限于自然的音色，而是成为一种可以塑造、创造的艺术。大饼AI变声作为一款免费的AI实时变声工具，为用户带来了前所未有的声音体验。大饼AI变声以其千种音色和自然的人声效果而备受瞩目。用户可以选择多样化的音色，实现从幽默搞笑到庄重神秘的无限可能性。这款工具支持全场

分类标签大饼AI变声声音体验音色转换

11-19 16:19

AI+公开课已经有团队开始用AI训练人了！

AI+公开课已经有团队开始用AI训练人了！近年来，随着人工智能技术的不断发展，越来越多的公司开始尝试用AI训练人。据悉，AI+公开课团队已经开始了这项尝试，并取得了一定的成果。AI训练人的意义在于，通过让机器学习人类的行为模式和思维方式，从而让机器更好地服务于人类。这项技术的应用前景非常广阔，尤其是

分类标签 AI训练人张佳

11-16 08:01