DreamFace：一项文本指导的渐进式3D生成框架

新知榜官方账号

2023-07-08 08:52:36

引言

自文本和图像生成技术取得巨大突破以来，3D生成技术逐渐成为了科研和产业界关注的焦点。然而，目前市面上的3D生成技术仍然面临着许多挑战，包括CG管线兼容性问题、准确性问题以及运行速度问题。为了解决这些问题，来自影眸科技与上海科技大学的研发团队提出了一种文本指导的渐进式3D生成框架——DreamFace。该框架能够直接生成符合CG制作标准的3D资产，具有更高的准确性、更快的运行速度和较好的CG管线兼容性。本文将对DreamFace的主要功能进行详细介绍，并探讨其在影视制作、游戏开发等行业的应用前景。

DreamFace框架概述

DreamFace框架主要包括三个模块：几何体生成、基于物理的材质扩散生成和动画能力生成。这三个模块相辅相成，共同实现了一种高效而可靠的3D生成技术。

几何体生成

几何体生成模块的核心任务是根据文本提示生成与之一致的几何模型。DreamFace采用了基于CLIP（ContrastiveLanguage-ImagePre-Training）的选择框架，首先从人脸几何参数空间内随机采样的候选项中选择最佳的粗略几何模型，然后通过隐式扩散模型（LDM）雕刻几何细节，使头部模型更符合文本提示。此外，该框架还支持基于文本提示的发型和颜色生成。

基于物理的材质扩散生成

基于物理的材质扩散生成模块旨在预测与预测几何体和文本提示一致的面部纹理。DreamFace首先将预先训练的LDM在收集的大规模UV材质数据集上微调，得到两个LDM扩散模型。然后，采用联合训练方案协调两个扩散过程，一个用于直接去噪UV纹理贴图，另一个用于监督渲染图像。为了确保所创建的纹理地图不含有不良特征或照明情况，同时仍保持多样性，设计了一种提示学习策略。团队利用两种方法生成高质量的漫反射贴图：（1）PromptTuning。与手工制作的特定领域文本提示不同，DreamFace将两个特定领域的连续文本提示Cd和Cu与相应的文本提示结合起来，这将在U-Net去噪器训练期间进行优化，以避免不稳定和耗时的手工撰写提示。（2）非面部区域遮罩。LDM去噪过程将额外地受到非面部区域遮罩的限制，以确保生成的漫反射贴图不含有任何不需要的元素。最后，通过超分辨率模块生成4K基于物理的纹理，以进行高质量渲染。

动画能力生成

DreamFace生成的模型具备动画能力。通过预测独特的变形，为生成的静息（Neutral）模型赋予动画效果，从而产生个性化的动画。与使用通用BlendShapes进行表情控制的方法相比，DreamFace的神经面部动画方法能够提供更细致的表情细节，并且能够精细地捕捉表演。

应用和展望

DreamFace框架在名人生成、根据描述生成角色等方面取得了优异的成绩。此外，还支持使用提示和草图进行纹理编辑，实现全局的编辑效果，如老化和化妆。通过进一步结合掩模或草图，可以创建各种效果，如纹身、胡须和胎记。DreamFace的渐进式生成框架为解决复杂的3D生成任务提供了一种有效的解决方案，有望推动更多类似的研究和技术发展。此外，基于物理的材质扩散生成和动画能力生成将推动3D生成技术在影视制作、游戏开发和其他相关行业的应用，让我们拭目以待它在未来的发展和应用。

本页网址：https://www.xinzhibang.net/article_detail-6847.html

寻求报道，请

关键词

分享至微信：

相关工具

Synthesia

AI视频生成平台

Veed Video Background Remover

Veed推出的AI视频背景移除工具

万彩微影

AI智能自动生成动画短视频

Colossyan

AI虚拟人出镜视频生成

Fliki

AI文字转视频并配音

Pictory

AI视频制作工具

大模型创业者的挑战与机遇

背景去年末，搜狗原CEO王小川只是体验了几次ChatGPT，就确信“AGI已经来了”。后来在创业者社区的一次线上交流会上，当几位AI领域的创业者仅从功能上定义ChatGPT的进步时，王小川又明确表态“大家把这件事想小了。”坚信ChatGPT能颠覆世界的，不止王小川一人。“这并不是上一代的AI技术”，

分类标签大模型创业AI商业化落地

12-04 16:08

使用仙宫云跑SD，用户体验至关重要！

使用仙宫云进行SD渲染最近我在用SD做AI视频。家里的3060真的实在是扛不住了，实在太慢，渲染个几秒钟的动画都要几十分钟甚至一个小时。还是上云吧。其实自己以前一直是本地跑，没怎么用过云端SD，不用不知道，一用吓一跳。我自认为算是稍微专业一点的SD玩家了。还是被各种云折磨的死去活来。比如所谓的阿X云

分类标签 SD云端GPU算力租赁

11-23 02:15

AI数字人：从娱乐场景到产业应用的转变

2022年是AIGC的元年，得益于大模型、多模态和数字孪生等技术的进步，AIGC被提到前所未有的高度，被称为是人工智能领域近期最大的跃进之一。随着AIGC颠覆内容生产模式，市场对于内容的要求也从简单的输出逐渐提高到内容丰富度和准确度，AI赋能内容生产正在向更低的成本，更快的速度发展。无独有偶，同年年

分类标签 AIGCChatGPTAI数字人内容生成企业价值

11-16 08:40

浅谈内部CRM的SFA建设

浅谈内部CRM的SFA建设内部CRM是企业重要的管理工具之一，而SFA建设则是内部CRM中的重要组成部分。SFA（Sales Force Automation）是指销售自动化，是通过计算机和网络技术，将销售业务中各个环节进行标准化处理、自动化管理，以提高销售效率、降低销售成本、提高服务质量的一种管理

分类标签内部CRMSFA建设市场

11-07 08:02

机器人客服的崛起和普及

机器人客服的崛起和普及随着人工智能技术的不断发展和普及，机器人客服正逐渐成为企业服务的新宠。这些智能机器人具备语音识别、自然语言处理等功能，可以实现与客户的智能对话，提供快速、准确的解决方案。相比传统客服，机器人客服更加高效、便捷，让用户享受到了全天候、无延迟的服务体验。情感识别技术的应用为了提升机

分类标签机器人客服情感识别技术跨界合作AI语音助手虚拟形象多语言支持

10-29 22:20

基于学习的动画制作方法：基于卡通角色的少量图像样本就可生成新动画

背景介绍相比于依靠创作者手绘的动画，木偶动画的制作是个非常繁琐的过程，我们需要将一个动作分解成若干个环节，逐帧拍摄再连续放映为影片。近日，Adobe和康奈尔大学提出了一种名为「变形木偶模板」的动画制作方法，可实现基于少量卡通角色样本生成新角色动作，和木偶动画的制作方法倒是有异曲同工之妙。传统动画制作

分类标签动画制作变形木偶模板卡通角色图像样本学习渲染

10-13 02:48

研究人员开发出端到端机器学习系统，可以从音频中单独生成实时面部动画

浙江大学和网易伏羲AI实验室的研究人员开发出一个名为Audio2Face的端到端机器学习系统，可以从音频中单独生成实时面部动画，并调节音调和说话风格。该团队试图构建一个同时满足“逼真”（生成的动画必须反映可见语音运动中的说话模式）和低延迟（系统必须能够进行近乎实时的动画）要求的系统。他们还尝试将其推

分类标签音频面部动画机器学习

10-13 02:46

NVIDIA研究团队推出“黑科技”：仅需一个音频即可快速生成表情丰富的虚拟数字人

虚拟数字人面临表情和互动不够自然的困境随着元宇宙概念的大热，以及疫情叠加下人们对数字生活需求的增加，虚拟数字人的发展步入了快车道，出现了很多类似于华智冰、柳夜熙、翎Ling等超写实虚拟数字人。而人与这些虚拟数字人最大的区别是有感情、能够体会到喜怒哀乐，且能够把喜怒哀乐实时地通过语言、表情等来体现。而

分类标签 NVIDIA虚拟数字人音频表情丰富AI技术Omniverse

10-13 02:44

迪士尼研究AI生成动画技术

迪士尼研究AI生成动画技术近日，迪士尼研究所和罗格斯大学的科学家共同发表了关于AI文本生成动画模型的论文。这种算法只要在输入的文本中描述某些活动即可，不需要注释数据和进行大量训练就能产生动画。这篇论文中，研究人员进一步提出了端到端模型，这种模型可以创建一个粗略的故事版和电影剧本的视频，用来描绘电影剧

分类标签迪士尼AI动画

10-13 02:42

华安证券“勇毅前行”2023年夏季上市公司交流会举行

华安证券“勇毅前行”2023年夏季上市公司交流会举行8月23日至24日，华安证券“勇毅前行”2023年夏季上市公司交流会在上海举行，来自计算机、电子、通信、军工、医药等20个行业的近200家龙头企业参加，就AI的未来与周期律动等前沿热门话题展开探讨。在8月23日主题“AI的未来：布局与应用”研讨会上

分类标签华安证券AI周期律动

10-13 02:30