极限元:AI虚拟主播、实时变声、说话人自适应等解决方案

新知榜官方账号

2023-10-11 18:10:42

AI虚拟主播解决方案

极限元AI虚拟主播基于少量的音视频数据即可快速生成主播形象,输入文本就可以生成具备同步口型、丰富面部表情及各类型动作的AI合成主播播报的音视频,结合语音识别、语义理解、语音合成、虚拟形象驱动等AI核心技术,通过手机APP、大屏一体机等终端展现形式,实现用户与虚拟客服之间的“面对面”互动交流、业务咨询、智能问答、服务导览。

方案构成:

  • 虚拟形象支持卡通、真人虚拟形象,可半身、全身形象播报。
  • 快捷定制、实时合成自主研发的语音合成技术,可为形象定制专属音库,快速将文本内容转换成虚拟主播视频,实时播报。
  • 表情、动作生成实时处理面部口唇动作,真实自然生动。通过语音内容驱动模型头部动作及身体动作。
  • 多语言播报支持中文、英文、粤语等多种语言播报。
  • AI系统生成虚拟主播系统,支持音频、视频实时快速导出,满足各种场景的内容自动化生产。

实时变声解决方案

实时变声技术可以通过提取原声语音中的内容信息,包括原声的节奏和情感,再结合特定人的音色进行转换结合,可以惟妙惟肖地复刻模仿特定人的声音,这种基于音色与内容分离的声音转换技术,实现了声音的cosplay,对用户本身的音色没有任何限制。极限元推出了语音实时变声技术,是智能语音方面新的突破,语音变声不仅能实现说话人音色的逼真转换,而且还能将说话人的语速、停顿等韵律、情感、言语方式在所指定的人物角色逼真体现出来,在不同人的声音中切换自如实现自然的变声效果。

可实现以下功能:

  • 音色个性化定制:根据客户场景,灵活定制各类变声音色
  • 多场景变声服务:针对变声需求,提供语音实时变声、非实时变声,灵活满足不同场景
  • 高性能服务保障:语音公有云,提供高并发的云服务支撑
  • 专属私有化部署:针对网络环境、安全保密性等特殊要求,提供客户专属的变声私有云部署
  • 稳定技术接口:满足多种产品端接入需求,提供稳定技术接口,可灵活定制如:不同角色变声为“太乙真人”声音皮肤:不同角色的音色+动画角色的风格

说话人自适应解决方案

极限元说话人自适应解决方案在性能上发音更清晰,音色更逼真,韵律更自然,用户仅需数分钟左右即可完成录制,大幅度降低了合成音库定制门槛,全自动化处理与训练,即可拥有接近原声声音的个性化定制模型,快捷实现文本转语音功能,实现高度音色还原度、个性化。广泛应用到智能硬件、语音导航、机器人陪伴、有声读物等领域。

自适应合成流程:

  1. 数据自动采集标注,运用asr对录音进行标注与检查,判断数据质量;
  2. 说话人特征空间建模及声学模型自适应,定制个性化模型;
  3. 神经网络声码器自适应;
  4. 模型训练完成的自动判断与评估;

极限元孵化于中国科学院,累计服务项目数百项,涵盖公共安全、教育、娱乐、金融、医疗、智能硬件等领域;随着AIOT与5G的不断融合,语音作为人机交互的基础,我们可能将更多的技术融入相应的设备里,形成多元化的产品体系。增加个性化定制的交互场景,实现“千人千面”的体验。也将语音变声、AI合成主播技术、说话人自适应等与行业结合,运用到媒体、教育、内容制作、旅游等场景,将会带来更大的价值想象空间。

本页网址:https://www.xinzhibang.net/article_detail-16398.html

寻求报道,请 点击这里 微信扫码咨询

关键词

AI虚拟主播 实时变声 说话人自适应

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯