VoiceConversion技术探索与实践

新知榜官方账号

2023-06-29 19:12:42

VoiceConversion技术探索与实践

什么是VoiceConversion(VC)?它可以将一个人的声音转换为另一个音色,但表述的内容没有改变。脑补了一下,这个技术可以给用户带来非常多有乐趣的体验。

VC的目标是转化语音中的非语言信息,与此同时保留语音中的语言信息的技术。此处首先明确语言信息的概念,语言信息就是大家说话里面所包括的文本内容,非语言信息是除文本内容之外的信息,例如说话人的音色,说话的方式,说话的节奏等。这一技术主要是为了实现以下两个目标:首先把输入音频的音色变成指定目标人的音色,然后将说话方式改变成指定目标人的说法方式。这一技术主要有以下应用场景,第一个是在医学上的应用,主要用来帮助丧失发言器官的人,这是因为医学界会进行舌头或是喉管等器官的切除手术,手术后病人说话的声音就不是很清晰,手术造成病人的发言器官不完善,发音不标准,所以需要设备为病人做声音的转换,让病人发音更清楚。第二个情况是希望通过应用这项技术给用户更多的娱乐可能,比如用户用更加搞笑的声音来拍小视频,这些声音我们可以利用某些特色的声音来做,从而让用户自己的视频更有趣,吸引大家的关注。

VC的进展以VC主要的三种应用方式进行说明,而这三种方式都通过模型来实现。一种是onetoone,也就是将一个人的音色转成另外一种方式,这是模型的限制所造成的。第二种是manytoone,将很多人的声音转成特定人的声音。最后一种是manytomany,任何人的声音都可以转成某一个指定人的声音,这一方式对模型上没有任何限制。

从VC的发展历史情况来说,研究方向最开始是从平行语料开展的。平行语料指语音内容里说的是相同的内容,比如A和B录的语音里面都有“我是中国人”这句话,非平行语料则是指语料A说的内容和B说的内容没有关系。从历史上来看,平行语料研究的时间比较早,其相对而言携带的信息更多,比较简单,但是平行语料有一个很大的问题——在实际应用中,我们不可能要求用户说这么多相同的内容,这不太现实,所以这方面的应用都需要做非平行语料。

从功能上来说,VC跟TTS是存在区别的,一个是语音转语音,一个是文本转语音。目前,TTS也在探索更富表现力的合成方法,部分方法也使用参考音频作为输入,在一点上来看,VC和TTS又有着一些共同之处。

未来,我们计划用非平行语料来尝试VC,从而尽可能降低对VC使用者的限制。但在做VC的时候,要尽可能保留原语音中丰富的韵律信息,这时我们发现正常说话时的转换效果还可以,但当我们在做清唱或者朗诵时效果就不理想,唱歌所转换出来的可能是正常说话,唱歌的方式并没有保留。除此之外,我们要剔除各类噪声的干扰,我们尝试做了些数据增强的方法,旨在降低噪声干扰。

以上是对VoiceConversion技术的探索与实践的介绍。

本页网址:https://www.xinzhibang.net/article_detail-2861.html

寻求报道,请 点击这里 微信扫码咨询

关键词

VoiceConversion VC 变声 多种应用场景

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯