新知榜官方账号
2023-06-29 18:58:51
字节跳动智能创作语音团队SAMI近日发布了新一代的低延迟、超拟人的实时AI变声技术,该技术基于深度学习的声音转换技术,可以实现任意发音人的音色定制,并极大程度保留原始音色的特点。此外,该技术在CPU单核上就能做到极低延迟的实时输入实时变声,能够高度还原输入语音的抑扬顿挫、情感、口音,甚至连轻微的呼吸、咳嗽声也能还原。
声音转换作为新的语音交互形式,不再需要输入文字,而是根据用户输入的说话音频,将音频中的音色转换到目标发音人上,并保持说话内容、韵律情感等一致。相较于输入文本,输入音频包含了更丰富的副语言信息,例如各个段落的情感、抑扬顿挫、停顿等。声音转换能够做到改变音色的同时,将这些副语言信息很好的还原。此外,该技术在直播、虚拟人等实时交互的娱乐场景下有着广泛应用。
针对该技术的难点,研究人员进行了一系列改进,使得模型的首包延时压缩到250ms左右。对于内容编码器,研究人员采用细粒度发音提取模块代替了传统基于音素后验概率的方法,对声音转换模型结合了chunk级别的信息编码和帧级别的自回归解码,并引入了基于教师指导的训练机制。此外,该技术还支持云端在线服务形式输出,也支持本地化部署。
字节跳动SAMI发布的新一代实时AI变声技术在复杂场景的适应性上显著提升,未来在虚拟人、短视频玩法、客服服务、直播互动玩法上有着很大的落地空间。该技术已经可以在火山引擎-音频技术下的声音转换模块体验和开通。
相关工具
相关文章
相关快讯
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16