新知榜官方账号
2023-06-29 18:58:51
字节跳动智能创作语音团队SAMI近日发布了新一代的低延迟、超拟人的实时AI变声技术,该技术基于深度学习的声音转换技术,可以实现任意发音人的音色定制,并极大程度保留原始音色的特点。此外,该技术在CPU单核上就能做到极低延迟的实时输入实时变声,能够高度还原输入语音的抑扬顿挫、情感、口音,甚至连轻微的呼吸、咳嗽声也能还原。
声音转换作为新的语音交互形式,不再需要输入文字,而是根据用户输入的说话音频,将音频中的音色转换到目标发音人上,并保持说话内容、韵律情感等一致。相较于输入文本,输入音频包含了更丰富的副语言信息,例如各个段落的情感、抑扬顿挫、停顿等。声音转换能够做到改变音色的同时,将这些副语言信息很好的还原。此外,该技术在直播、虚拟人等实时交互的娱乐场景下有着广泛应用。
针对该技术的难点,研究人员进行了一系列改进,使得模型的首包延时压缩到250ms左右。对于内容编码器,研究人员采用细粒度发音提取模块代替了传统基于音素后验概率的方法,对声音转换模型结合了chunk级别的信息编码和帧级别的自回归解码,并引入了基于教师指导的训练机制。此外,该技术还支持云端在线服务形式输出,也支持本地化部署。
字节跳动SAMI发布的新一代实时AI变声技术在复杂场景的适应性上显著提升,未来在虚拟人、短视频玩法、客服服务、直播互动玩法上有着很大的落地空间。该技术已经可以在火山引擎-音频技术下的声音转换模块体验和开通。
相关工具
相关文章
相关快讯
推荐
中国首款3A游戏上线,《黑神话:悟空》出圈!
2024-08-21 13:46
盘点15款AI配音工具,短视频配音有救了!
2024-08-12 17:11
短视频文案没创意?10大AI写作工具来帮你!
2024-08-05 16:23
Midjourney发布V6.1版本,我已分不清AI和现实了!
2024-08-01 15:03
我发现了一款国产AI绘画神器,免费易上手!
2024-07-25 16:40
7位AI考生做今年高考题,能过一本线吗?
2024-07-19 17:17
世界上第一所AI学校来了,80亿人只需要1位老师?
2024-07-18 17:12
Sora首部AI广告片上线,广告从业者危险了!
2024-06-27 13:44
OpenAI与中国说拜拜,国产AI如何接棒?
2024-06-26 15:18
人与AI会产生爱情吗,专家发话了!
2024-06-17 17:28