微软发布VisualChatGPT模型,语言与视觉交互更加丝滑

新知榜官方账号

2023-07-03 22:00:38

微软发布VisualChatGPT模型,语言与视觉交互更加丝滑

微软亚洲研究院发布了VisualChatGPT模型,将视觉模型信息注入ChatGPT,实现语言和图像的交互。该模型能够处理和生成视觉图像,并提供复杂的视觉指令,让多个模型通过多步骤协作。本文介绍了模型原理和应用案例。

模型概述

对于一个由N个问题-答案对构成的集合,想要从第i轮对话中得到答案,就需要一系列的VFM和中间输出。我们记第i轮对话中,第j次的工具调用中间答案。这种工作机制可用一个公式表示,这个公式也定义了什么是VisualChatGPT。其他符号代表:P是全局原则,F是各个视觉基础模型,是历史会话记忆,是这一轮的用户输入,是这轮对话里的推理历史,是中间答案,M是PromptManager,用来把上面各个功能转化成合理的文本prompt,进而将其交给ChatGPT处理。

VisualChatGPT模型示意图

ChatGPT生成最终答案要经历一个不断迭代的过程,它会不断自我询问,自动调用更多VFM。而当用户指令不够清晰时,VisualChatGPT会询问其能否提供更多细节,避免机器自行揣测甚至篡改人类意图。PromptManager概述每个视觉基础模型的GPU显存使用情况如下:通过修改self.tools来调整模型的使用数量,便可以节省显存。

案例研究

论文还分析了在各个模块,如果PromptManager的设计不到位,会各自出现什么问题。比如,对于工具包的描述,需要对其名字、功能、输入输出有严格的设计。不过举例影响不大,只要描述清楚,ChatGPT便可以理解。另外,在M(P)中,不强调对图片文件名的敏感,没有严格的思考链格式、不强调可靠性、还有可以使用链式使用工具,模型在输出时就会产生错误。

结论

VisualChatGPT的横空出世,让ChatGPT聊天更加丝滑了。有网友预测,这个功能会迅速集成到新必应中,可能作为付费服务,让日常消费者更接近与「人类」的对话。下一步,没准儿ChatGPT生成视频指日可待了。

参考资料:

  • https://arxiv.org/abs/2303.04671
  • https://www.reddit.com/r/MachineLearning/comments/11mlwty/r_visual_chatgpt_talking_drawing_and_editing_with/

本页网址:https://www.xinzhibang.net/article_detail-5062.html

寻求报道,请 点击这里 微信扫码咨询

关键词

VisualChatGPT 微软亚洲研究院 多模态智能 自然语言处理

分享至微信: 微信扫码阅读

相关工具

相关文章