新知榜官方账号
2023-10-14 16:26:18
近日,李飞飞高徒和团队研究人员提出了基于《我的世界》游戏新框架MineDojo,可以让AI自由探索程序生成的3D世界。上周,OpenAI让AI看完海量视频后,学会玩《我的世界》。在这之前,来自英伟达团队的研究人员还构建了一个游戏新框架MineDojo。
MineDojo包含了1000多种不同的开放式任务的模拟套件。在这里,AI智能体可以自由探索程序生成的3D世界。
MineDojo从网上收集了海量数据:73万YouTube视频,带有标记2.2亿个单词的英文脚本,这些视频总时长大概有30万个小时;6735个Wiki页面,其中包括交互式的文本、图像、表格和图表;34万条在「r/Minecraft」上的Reddit帖子,还有660万条评论。
视频素材分两类:逐步演示、配音详解的教程视频,研究团队用教程视频做出了大量程序基准。不按特定任务与步骤进行的普通游戏录播视频,给AI智能体提供了内容更多元、素材更丰富的各种学习与训练信号。
由于Reddit文本数据库中的内容结合了文字、图片、短视频片段,将精细调试的大语言模型在其中使用后,AI智能体就能获得大量特定的内化概念和复杂策略。
MineDojo现有基准任务库中包含3131个任务,其中有1572个可编程任务、1558个创造性任务、1个通关性任务。
研究团队将所有任务都附带了自然语言叙述的提示,很多任务还有用GPT-3生成的逐步指南。为了用强化学习训练AI智能体玩《我的世界》、完成必备的奖惩功能,研究团队自行开发了模型MineCLIP。MineCLIP是在海量Youtube数据库上预训练的对比视频语言模型,利用大型预训练的视频语言模型作为学习奖励函数。
MineCLIP模型也是MineDojo中AI将图像对应自然语言的核心组件,包含了文本编码器和图像编码器,参数1.5亿。研究团队在论文中称MineCLIP模型的神经架构很类似CLIP4Clip,但比其多了两层图-文适应处理层。研究团队在视频数据库中抽取了64万16秒短视频片段抽样,来训练这两层来对应图像和文字,效果可与人工判定的真实值媲美。
MineDojo的研究方向与OpenAI有所不同。OpenAI试图训练一个《我的世界》中的通才智能体,通过模仿大量演示来学习,然后再通过精心化设计的奖励让智能体去进行强化学习。相比之下,英伟达提出了不同的观点。他们通过利用YouTube上的视频里的知识学习各种想得到的任务,包括GPT-3生成的任务。为此,研究者并没有通过手动设计无数奖励,而是设计了一种算法MineCLIP,利用了大型与训练视频模型作为学习奖励函数。
最新研究团队共有十个人。其中论文一作是李飞飞门下得意弟子LinxiFan(范麟熙)。他毕业于上海实验中学,本科就读于纽约哥伦比亚大学,目前在斯坦福大学攻读博士,主修计算机视觉、强化学习以及机器人技术。
相关工具
相关文章
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16