字节跳动SAMI发布新一代实时AI变声技术

新知榜官方账号

2023-06-29 18:58:51

字节跳动智能创作语音团队SAMI近日发布了新一代的低延迟、超拟人的实时AI变声技术,该技术基于深度学习的声音转换技术,可以实现任意发音人的音色定制,并极大程度保留原始音色的特点。此外,该技术在CPU单核上就能做到极低延迟的实时输入实时变声,能够高度还原输入语音的抑扬顿挫、情感、口音,甚至连轻微的呼吸、咳嗽声也能还原。

声音转换作为新的语音交互形式,不再需要输入文字,而是根据用户输入的说话音频,将音频中的音色转换到目标发音人上,并保持说话内容、韵律情感等一致。相较于输入文本,输入音频包含了更丰富的副语言信息,例如各个段落的情感、抑扬顿挫、停顿等。声音转换能够做到改变音色的同时,将这些副语言信息很好的还原。此外,该技术在直播、虚拟人等实时交互的娱乐场景下有着广泛应用。

针对该技术的难点,研究人员进行了一系列改进,使得模型的首包延时压缩到250ms左右。对于内容编码器,研究人员采用细粒度发音提取模块代替了传统基于音素后验概率的方法,对声音转换模型结合了chunk级别的信息编码和帧级别的自回归解码,并引入了基于教师指导的训练机制。此外,该技术还支持云端在线服务形式输出,也支持本地化部署。

字节跳动SAMI发布的新一代实时AI变声技术在复杂场景的适应性上显著提升,未来在虚拟人、短视频玩法、客服服务、直播互动玩法上有着很大的落地空间。该技术已经可以在火山引擎-音频技术下的声音转换模块体验和开通。

本页网址:https://www.xinzhibang.net/article_detail-2856.html

寻求报道,请 点击这里 微信扫码咨询

关键词

字节跳动 SAMI AI变声

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯