研究人员开发出端到端机器学习系统,可以从音频中单独生成实时面部动画

新知榜官方账号

2023-10-13 02:46:40

浙江大学和网易伏羲AI实验室的研究人员开发出一个名为Audio2Face的端到端机器学习系统,可以从音频中单独生成实时面部动画,并调节音调和说话风格。该团队试图构建一个同时满足“逼真”(生成的动画必须反映可见语音运动中的说话模式)和低延迟(系统必须能够进行近乎实时的动画)要求的系统。他们还尝试将其推广,以便可以将生成的动画重新定位到其他3D角色。

该系统的实现基于音轨设计,没有任何其他辅助输入(例如图像),这就使得当我们试图从声音序列中回归视觉空间的过程将会越来越具有挑战。此外,该系统可以消除说话人随时间变化的面部动作,从而产生准确的唇部运动。

Audi2Face的实现基于从原始输入音频中提取手工制作的高级声学特征,特别是梅尔频率倒谱系数(MFC),或声音的短期功率谱的表示。然后深度相机与mocap工具Faceshift一起,捕捉配音演员的面部动作并编制训练集。最后,该团队构建了带有51个参数的3D卡通人脸模型,控制了脸部的不同部位(例如,眉毛,眼睛,嘴唇和下巴),并利用上述AI系统将音频上下文映射到参数,产生唇部和面部动作。

该成果已经发布至arXiv,共同作者解释道:“另一个挑战是面部活动涉及脸部几何表面上相关区域的多重激活,这使得很难产生逼真且一致的面部变形。”评估结果显示,该框架可能为适应性强、可扩展的音频到面部动画技术奠定基础,这些技术几乎适用于所有说话人和语言。

本页网址:https://www.xinzhibang.net/article_detail-16636.html

寻求报道,请 点击这里 微信扫码咨询

关键词

音频 面部动画 机器学习

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯