虚拟数字人的发展历程及技术应用

新知榜官方账号

2023-09-09 16:18:46

虚拟数字人的发展历程及技术应用

虚拟数字人起源于上个世纪八十年代的日本经典动画片《超时空要塞》的女主角林明美。2000年-2016年,虚拟数字人还只是停留在研究阶段。2016年以来,深度学习和元宇宙的出现,使得虚拟偶像一夜火遍全世界。

虚拟数字人根据驱动方式的不同可分为AI智能驱动型和真人驱动型。在真人驱动型虚拟数字人中,真人也被称为“中之人”,配合动作捕捉设备,让虚拟数字人能够与观众进行实时交互。而AI智能驱动型虚拟人,则是通过智能系统自动读取并解析识别外界输入信息,根据解析结果决策输出文本,驱动人物模型生成相应的语音与动作与用户交互。

虚拟数字人的口型和微表情等微动作较多,真人拍摄耗资巨大,AI语音口型驱动成为主流。AI语音驱动虚拟数字人微表情AI语音驱动又称为虚拟形象语音动画合成技术(Voice-to-Animation),用户通过输入文本或语音,以一定规则或深度学习算法,生成对应的3D虚拟形象的人脸表情系数,完成口型和面部表情的精准驱动。开发者可以快速构建丰富的虚拟形象智能驱动应用,如虚拟主持人、虚拟客服、虚拟教师等。

根据输入内容的不同(文本/语音),可以分为三种驱动方法:语音驱动、音素驱动、语音和音素多模融合驱动。其中,语音和音素多模融合驱动方法效果最好,但模型更复杂。

AI语音驱动虚拟数字人全身近期,百度推出了语音驱动虚拟数字人全身动作的算法框架Speech2Vedio。是一种从语音音频输入合成虚拟人全身运动视频的任务。该论文作者将3D骨骼知识和模型学习的个性化语音手势字典,嵌入到整个模型的学习和测试中。通过3D人体骨骼知识限制生成的动作幅度,限定符合正常人类肢体的伸展范围,通过语音驱动算法合成符合语音场景的动作,形成协调一致,口手合一的虚拟数字人形象。

AI语音驱动虚拟数字人作为虚拟人落地的核心技术,不仅大幅节省了制作成本,同时精细化的培养了虚拟数字人口手合一的协调性。

AI语音驱动技术的重要底座自2021年以来,相关部门纷纷出台政策大力支持人工智能、区块链、大数据等产业的发展,而虚拟数字人产业则是这些产业的重要组成部分。根据量子位发布的《虚拟数字人深度产业报告》预测,到2030年,我国虚拟数字人整体市场规模将达到2700亿元。MagicData作为全球领先的AI数据解决方案提供商,拥有海量经由专业录音棚录制的高质量数据集。MagicDataTTS数据集涵盖天津话、东北话、四川话、上海话、广西话、长沙话众多方言。同时,拥有英语、葡萄牙语、韩语等多语种TTS数据。并能够匹配男声、女声、童声、二次元、甚至Rap说唱等各类需求。让虚拟数字人的互动拥有更多丰富的可能性,助力企业实现业务增长。

本页网址:https://www.xinzhibang.net/article_detail-11116.html

寻求报道,请 点击这里 微信扫码咨询

关键词

虚拟数字人 AI智能驱动 真人驱动

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯