AI画师又“进阶”：清华&智源研究院出品的文本生成视频模型CogVideo

新知榜官方账号

2023-06-30 12:28:49

背景

清华&智源研究院出品的文本生成视频模型CogVideo可以根据文本内容生成低帧视频，并通过双向注意力模型插帧生成高帧率的完整视频。这个模型是CogView2文本-图像生成模型的延伸，使用了540万个文本-视频对进行训练。CogVideo应该是当前最大的、也是首个开源的文本生成视频模型。

模型原理

模型一共有90亿参数，基于预训练文本-图像模型CogView2打造，一共分为两个模块。第一部分先基于CogView2，通过文本生成几帧图像，这时候合成视频的帧率还很低；第二部分则会基于双向注意力模型对生成的几帧图像进行插帧，来生成帧率更高的完整视频。在训练上，CogVideo一共用了540万个文本-视频对。

评估

研究人员将CogVideo在UCF-101和Kinetics-600两个人类动作视频数据集上进行了测试。整体来看，CogVideo生成的视频质量处于中等水平。但从人类偏好度来看，CogVideo生成的视频效果就比其他模型要高出不少，甚至在当前最好的几个生成模型之中，取得了最高的分数。

意义

CogVideo的生成视频效果得到了人类评估中得分最高的成果，也为语言模型提供了一些新思路。用视频训练可能会进一步释放语言模型的潜力。因为它不仅有大量的数据，还隐含了一些用文本比较难体现的常识和逻辑。

本页网址：https://www.xinzhibang.net/article_detail-3256.html

寻求报道，请

关键词

AI画师文本生成视频模型 CogVideo

分享至微信：

相关工具

DeepBrain

AI口播视频生成工具

Synthesys

AI虚拟人出镜讲解

Fliki

AI文字转视频并配音

AVCLabs

AI自动移除视频背景

Hour One

人工智能文字到视频生成

Veed Video Background Remover

Veed推出的AI视频背景移除工具

AI创作者在Fiverr上赚近80万人民币，AI真的能带来预期的盈利吗？

AI创作者在海外最大的自由职业交易平台Fiverr上赚取近80万人民币，AI真的能带来预期的盈利吗？最早一批实现商业化的可能是使用AI工具的创作者。从一开始利用AI圈信息差卖课获利，到后期使用生成式AI做图文视频，提供人工智能解决方案，这些玩家无需投入大量资金成本，只要会使用AI工具，就能赚到一笔钱

分类标签 AI创作者Fiverr人工智能盈利交易平台自由职业

12-08 16:12

人工智能技术在视频制作领域的应用和商业化模式

人工智能技术在视频制作领域的应用和商业化模式近年来，人工智能技术的快速发展，让AI在视频制作领域的应用取得了瞩目的进展。近期，多款AI视频应用如HeyGen、Pika、Runway和StableVideoDiffusion等在海外市场崭露头角，其强大的产品功能让人眼前一亮。这些AI视频工具不仅证明了

分类标签人工智能视频制作应用

12-08 16:11

AI应用：从0到1到1-N，传媒行业2024年投资策略报告

一、AI应用：从0到1到1-N展望2024年，我们看好AI、XR、数据要素三大主线的产业方向发展更加纵深，向1-N发展。产业趋势从0到1——AI：大模型横空出世，应用遍地开花生成式AI：我们在去年策略报告提出，生成式AI经过前期技术积累进入爆发期，随着技术与应用进一步成熟，有望继决策式AI，打造更为

分类标签 AIXR数据要素

12-08 16:10

“AI数字人”亮相全球数贸会赋能千行百业人气足

“AI数字人”亮相全球数贸会赋能千行百业人气足11月23日至27日，第二届全球数字贸易博览会(以下简称“数贸会”)在浙江杭州举办。本届数贸会汇聚超千家数字贸易企业，展示前沿动向。从展会上三款“AI数字人”可以感受到，日益发达的数字技术正在赋能千行百业，“链接”一个更包容更普惠的未来世界。走进数贸会前

分类标签数字贸易AI数字人虚拟数字人

12-05 22:17

AI数字人在电商行业中的应用及未来发展趋势

一、AI数字人的定义和发展AI数字人是指通过计算机技术创造的具有人类外貌特征、行为举止和语音表达的虚拟存在形式。它们利用语音识别、自然语言处理、计算机视觉等技术，实现与人类的自然交互，成为人类与计算机之间沟通的桥梁。近年来，随着人工智能技术的不断进步，AI数字人的应用场景也得到了进一步拓展。智信国际

分类标签 AI数字人电商行业个性化服务

12-05 22:16

数字人：AI主播的新时代

数字人：AI主播的新时代在短视频上，出现过很多这样的场景：一家公司的整个办公室里空无一人，只有一排排办公桌上有数十台电脑屏幕里的AI美女们正在直播......是的，你没听错，AI代替了真人直播，每一个生成的AI数字人和真人如出一辙。“数字人”是今年推出的一种AI技术，通过克隆真实人物并代替其进行直播

分类标签数字人AI主播直播行业

12-05 22:15

数字人：人工智能和虚拟形象技术的重大突破

什么是数字人？数字人是指通过人工智能和虚拟形象技术创造的虚拟个体，具备自己的外貌、声音和行为。数字人是利用人工智能技术实现与真人直播形象的1:1克隆，即克隆出一个数字化的你自己，包括你的形象、表情、动作和声音都会被克隆下来，让你能够拥有接近真人的表现力。数字人可以通过自然语言处理和机器学习技术与人进

分类标签数字人人工智能虚拟形象技术

12-04 16:09

视频翻译免费工具MyHeyGen的使用教程

视频翻译免费工具MyHeyGen的使用教程近期，一款名为“视频翻译”的工具引起了广泛关注。这不是一个简单的网页应用，而是一个可以免费部署在个人电脑或服务器上的实用程序。它的强大之处在于能够翻译任意时长的视频内容。所谓的视频翻译，实际上是指同声传译。虽然这类工具并非近期才问世，市场上已有多款成熟产品，

分类标签视频翻译免费工具MyHeyGen

12-03 22:14

视频翻译工具MyHeyGen的安装使用教程

视频翻译工具MyHeyGen的安装使用教程近期，一款名为“视频翻译”的工具引起了广泛关注。这不是一个简单的网页应用，而是一个可以免费部署在个人电脑或服务器上的实用程序。它的强大之处在于能够翻译任意时长的视频内容。所谓的视频翻译，实际上是指同声传译。虽然这类工具并非近期才问世，市场上已有多款成熟产品，

分类标签视频翻译MyHeyGen安装教程

12-03 08:37

视频翻译工具免费开源，能处理任意时长视频的翻译工具

视频翻译工具免费开源，能处理任意时长视频的翻译工具近期，一款名为“视频翻译”的工具引起了广泛关注。这不是一个简单的网页应用，而是一个可以免费部署在个人电脑或服务器上的实用程序。它的强大之处在于能够翻译任意时长的视频内容。所谓的视频翻译，实际上是指同声传译。虽然这类工具并非近期才问世，市场上已有多款成

分类标签视频翻译免费开源任意时长视频

12-03 02:23

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway