新知榜官方账号
2023-09-09 16:18:46
虚拟数字人起源于上个世纪八十年代的日本经典动画片《超时空要塞》的女主角林明美。2000年-2016年,虚拟数字人还只是停留在研究阶段。2016年以来,深度学习和元宇宙的出现,使得虚拟偶像一夜火遍全世界。
虚拟数字人根据驱动方式的不同可分为AI智能驱动型和真人驱动型。在真人驱动型虚拟数字人中,真人也被称为“中之人”,配合动作捕捉设备,让虚拟数字人能够与观众进行实时交互。而AI智能驱动型虚拟人,则是通过智能系统自动读取并解析识别外界输入信息,根据解析结果决策输出文本,驱动人物模型生成相应的语音与动作与用户交互。
虚拟数字人的口型和微表情等微动作较多,真人拍摄耗资巨大,AI语音口型驱动成为主流。AI语音驱动虚拟数字人微表情AI语音驱动又称为虚拟形象语音动画合成技术(Voice-to-Animation),用户通过输入文本或语音,以一定规则或深度学习算法,生成对应的3D虚拟形象的人脸表情系数,完成口型和面部表情的精准驱动。开发者可以快速构建丰富的虚拟形象智能驱动应用,如虚拟主持人、虚拟客服、虚拟教师等。
根据输入内容的不同(文本/语音),可以分为三种驱动方法:语音驱动、音素驱动、语音和音素多模融合驱动。其中,语音和音素多模融合驱动方法效果最好,但模型更复杂。
AI语音驱动虚拟数字人全身近期,百度推出了语音驱动虚拟数字人全身动作的算法框架Speech2Vedio。是一种从语音音频输入合成虚拟人全身运动视频的任务。该论文作者将3D骨骼知识和模型学习的个性化语音手势字典,嵌入到整个模型的学习和测试中。通过3D人体骨骼知识限制生成的动作幅度,限定符合正常人类肢体的伸展范围,通过语音驱动算法合成符合语音场景的动作,形成协调一致,口手合一的虚拟数字人形象。
AI语音驱动虚拟数字人作为虚拟人落地的核心技术,不仅大幅节省了制作成本,同时精细化的培养了虚拟数字人口手合一的协调性。
AI语音驱动技术的重要底座自2021年以来,相关部门纷纷出台政策大力支持人工智能、区块链、大数据等产业的发展,而虚拟数字人产业则是这些产业的重要组成部分。根据量子位发布的《虚拟数字人深度产业报告》预测,到2030年,我国虚拟数字人整体市场规模将达到2700亿元。MagicData作为全球领先的AI数据解决方案提供商,拥有海量经由专业录音棚录制的高质量数据集。MagicDataTTS数据集涵盖天津话、东北话、四川话、上海话、广西话、长沙话众多方言。同时,拥有英语、葡萄牙语、韩语等多语种TTS数据。并能够匹配男声、女声、童声、二次元、甚至Rap说唱等各类需求。让虚拟数字人的互动拥有更多丰富的可能性,助力企业实现业务增长。
相关工具
相关文章
相关快讯
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16