DreamFace:一项文本指导的渐进式3D生成框架

新知榜官方账号

2023-07-08 08:52:36

引言

自文本和图像生成技术取得巨大突破以来,3D生成技术逐渐成为了科研和产业界关注的焦点。然而,目前市面上的3D生成技术仍然面临着许多挑战,包括CG管线兼容性问题、准确性问题以及运行速度问题。为了解决这些问题,来自影眸科技与上海科技大学的研发团队提出了一种文本指导的渐进式3D生成框架——DreamFace。该框架能够直接生成符合CG制作标准的3D资产,具有更高的准确性、更快的运行速度和较好的CG管线兼容性。本文将对DreamFace的主要功能进行详细介绍,并探讨其在影视制作、游戏开发等行业的应用前景。

DreamFace框架概述

DreamFace框架主要包括三个模块:几何体生成、基于物理的材质扩散生成和动画能力生成。这三个模块相辅相成,共同实现了一种高效而可靠的3D生成技术。

几何体生成

几何体生成模块的核心任务是根据文本提示生成与之一致的几何模型。DreamFace采用了基于CLIP(ContrastiveLanguage-ImagePre-Training)的选择框架,首先从人脸几何参数空间内随机采样的候选项中选择最佳的粗略几何模型,然后通过隐式扩散模型(LDM)雕刻几何细节,使头部模型更符合文本提示。此外,该框架还支持基于文本提示的发型和颜色生成。

基于物理的材质扩散生成

基于物理的材质扩散生成模块旨在预测与预测几何体和文本提示一致的面部纹理。DreamFace首先将预先训练的LDM在收集的大规模UV材质数据集上微调,得到两个LDM扩散模型。然后,采用联合训练方案协调两个扩散过程,一个用于直接去噪UV纹理贴图,另一个用于监督渲染图像。为了确保所创建的纹理地图不含有不良特征或照明情况,同时仍保持多样性,设计了一种提示学习策略。团队利用两种方法生成高质量的漫反射贴图:(1)PromptTuning。与手工制作的特定领域文本提示不同,DreamFace将两个特定领域的连续文本提示Cd和Cu与相应的文本提示结合起来,这将在U-Net去噪器训练期间进行优化,以避免不稳定和耗时的手工撰写提示。(2)非面部区域遮罩。LDM去噪过程将额外地受到非面部区域遮罩的限制,以确保生成的漫反射贴图不含有任何不需要的元素。最后,通过超分辨率模块生成4K基于物理的纹理,以进行高质量渲染。

动画能力生成

DreamFace生成的模型具备动画能力。通过预测独特的变形,为生成的静息(Neutral)模型赋予动画效果,从而产生个性化的动画。与使用通用BlendShapes进行表情控制的方法相比,DreamFace的神经面部动画方法能够提供更细致的表情细节,并且能够精细地捕捉表演。

应用和展望

DreamFace框架在名人生成、根据描述生成角色等方面取得了优异的成绩。此外,还支持使用提示和草图进行纹理编辑,实现全局的编辑效果,如老化和化妆。通过进一步结合掩模或草图,可以创建各种效果,如纹身、胡须和胎记。DreamFace的渐进式生成框架为解决复杂的3D生成任务提供了一种有效的解决方案,有望推动更多类似的研究和技术发展。此外,基于物理的材质扩散生成和动画能力生成将推动3D生成技术在影视制作、游戏开发和其他相关行业的应用,让我们拭目以待它在未来的发展和应用。

本页网址:https://www.xinzhibang.net/article_detail-6847.html

寻求报道,请 点击这里 微信扫码咨询

关键词

DreamFace 3D生成 文本指导

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯