视频AI领域正在崛起,多模态技术成为突破口

新知榜官方账号

2023-10-12 01:37:06

视频AI领域正在崛起

在当下的AI赛道上,AI聊天、绘画一类的应用,早已枝繁叶茂。然而,在此类同质化应用扎堆的情况下,一类颇有技术难度,也较少被人提及的方向,正在悄然崛起。这就是最能调动人感官的视频AI领域。

根据twitter上的作者Will郎瀚威统计的图表,今年8—9月,各大文生图类AI网站的访问量均开始呈现下降趋势。然而,就在这种情况下,国外知名视频AI网站HeyGen的访问量上升了92%,流量跃居各大独立AI网站之首。那么,为何此前一直默默无闻的视频AI,最近突然异军突起,盖过了风头正盛的文生图类AI应用?而在GPT-4V发布,多模态技术不断取得突破的情况下,这一微妙的变化,又预示着什么?

多模态技术成为突破口

从AI发展的大格局上来说,HeyGen的这波流量上升,或许只是多模态高歌猛进背景下的一个插曲。从谷歌宣布Gemini具有多模态功能的消息,到OpenAI发布GPT-4V,各个AI巨头,似乎都将下一阶段竞争的焦点放在了多模态上。

那为何多模态成了巨头眼中关键的“突破点”?原因或许就在于,其具有打破“专业壁垒”的意义。在多模态尚未取得突破之前,不同模态、领域之间,存在着巨大的鸿沟。写文案,做编辑的人,即使再妙笔生花,如果缺乏相应的美术知识,以及各种专业的提示词,也难以用AI画出出色的作品。而一个画师如果没有受过专业的写作训练,缺乏谋篇布局的思路,也难以凭借AI写出上乘的文章。类似的“壁垒”,在视频剪辑方面,也同样存在着。

根据知乎上一位视频剪辑方面的从业者介绍,一个完整的视频剪辑流程,包括了调色、整理素材、配字幕等一系列工作,要想熟练地进行剪辑,必须掌握PR、Edius、剪映等多种剪辑软件,同时还需熟悉各种转场、调色、粒子特效等插件的使用。如果想让视频呈现更丰富的效果,还要掌握b-roll转场、字幕遮罩、坡度变速等复杂的操作。此外,素材的搜集和整理,也是剪辑工作中的一大“苦活”,倘若题材较为冷门,素材就会很不好找。有时尽管遇到了好的素材,也可能由于版权问题难以使用。

正是由于上述原因,视频剪辑,注定不是一个简单的、易于掌握的技能。以国内知名网站B站为例,据一位B站上百万粉丝的UP主团队透露,为了保证视频更新的效率、质量,这些账号往往会配备数名较为熟练的剪辑人员,轮番进行剪辑。那么,倘若有一种智能化的AI剪辑应用,能根据创作者想表达的思路,自动、高效地完成整个视频的制作,视频制作领域,又会发生怎样的颠覆呢?

HeyGen:视频AI的代表

HeyGen是国外知名视频AI网站,其最大的特点是可以利用现有数据来创造全新和从未有过的内容。以往的类似应用,例如D-ID,虽然也能让用户从照片或者AI形象中生成视频,但是这样的技术,更多是基于复制或处理已有的内容的AI技术。这些技术虽然也可以制作视频,但是需要用户提供自己的照片或录音,或者从D-ID提供的一些固定的AI形象中选择。这样就需要用户花费更多的时间和精力来准备和上传素材,也限制了用户的选择和定制空间。

而相较之下,HeyGen的技术则可以让用户从文本中直接生成视频,并使用多种不同的AI形象和声音。目前,HeyGen提供超过100+数字人素材和模板,广告、电商、新闻等一应俱全,也可以自己编辑PPT生成。同时,HeyGen还支持300+不同音色和40+语言,以及视频翻译功能。通过这种定制化的、排列组合的方式,HeyGen可以快速、精简地制作出各种适用于多种场景的视频。

视频AI技术的趋势

从以上视频AI的技术特点中,我们至少可以总结出目前视频AI技术的两大趋势:1、制作流程极大简化;2、内容的多样性和定制性。这是以往受限于已有素材的单一模态技术难以实现的。

在上述两大趋势中,目前国内视频AI应用,只勉强做到了“简化”这一步。虽然国内目前也有一些与HeyGen类似的AI视频应用,但在具体的生成效果方面,国内应用的视频清晰度、素材丰富度,以及定制化功能方面,仍与HeyGen等应用有着较大差距。

如果说,在本轮AI革命中,国内视频AI技术仅仅止步于“降本”这一环节,从长远来看,是远远不足以征服智能化时代的观众的。要想让作品具有感情和灵魂,除了一个劲儿地“降本”之外,在个性化、拟真度,以及素材丰富性方面,国产视频AI还有很长的路要走。

本页网址:https://www.xinzhibang.net/article_detail-16423.html

寻求报道,请 点击这里 微信扫码咨询

关键词

视频AI 多模态技术 HeyGen

分享至微信: 微信扫码阅读

相关工具

相关文章