新知榜官方账号
2023-07-03 22:00:38
微软亚洲研究院发布了VisualChatGPT模型,将视觉模型信息注入ChatGPT,实现语言和图像的交互。该模型能够处理和生成视觉图像,并提供复杂的视觉指令,让多个模型通过多步骤协作。本文介绍了模型原理和应用案例。
对于一个由N个问题-答案对构成的集合,想要从第i轮对话中得到答案,就需要一系列的VFM和中间输出。我们记第i轮对话中,第j次的工具调用中间答案。这种工作机制可用一个公式表示,这个公式也定义了什么是VisualChatGPT。其他符号代表:P是全局原则,F是各个视觉基础模型,是历史会话记忆,是这一轮的用户输入,是这轮对话里的推理历史,是中间答案,M是PromptManager,用来把上面各个功能转化成合理的文本prompt,进而将其交给ChatGPT处理。
ChatGPT生成最终答案要经历一个不断迭代的过程,它会不断自我询问,自动调用更多VFM。而当用户指令不够清晰时,VisualChatGPT会询问其能否提供更多细节,避免机器自行揣测甚至篡改人类意图。PromptManager概述每个视觉基础模型的GPU显存使用情况如下:通过修改self.tools来调整模型的使用数量,便可以节省显存。
论文还分析了在各个模块,如果PromptManager的设计不到位,会各自出现什么问题。比如,对于工具包的描述,需要对其名字、功能、输入输出有严格的设计。不过举例影响不大,只要描述清楚,ChatGPT便可以理解。另外,在M(P)中,不强调对图片文件名的敏感,没有严格的思考链格式、不强调可靠性、还有可以使用链式使用工具,模型在输出时就会产生错误。
VisualChatGPT的横空出世,让ChatGPT聊天更加丝滑了。有网友预测,这个功能会迅速集成到新必应中,可能作为付费服务,让日常消费者更接近与「人类」的对话。下一步,没准儿ChatGPT生成视频指日可待了。
参考资料:
相关工具
相关文章
推荐
中国首款3A游戏上线,《黑神话:悟空》出圈!
2024-08-21 13:46
盘点15款AI配音工具,短视频配音有救了!
2024-08-12 17:11
短视频文案没创意?10大AI写作工具来帮你!
2024-08-05 16:23
Midjourney发布V6.1版本,我已分不清AI和现实了!
2024-08-01 15:03
我发现了一款国产AI绘画神器,免费易上手!
2024-07-25 16:40
7位AI考生做今年高考题,能过一本线吗?
2024-07-19 17:17
世界上第一所AI学校来了,80亿人只需要1位老师?
2024-07-18 17:12
Sora首部AI广告片上线,广告从业者危险了!
2024-06-27 13:44
OpenAI与中国说拜拜,国产AI如何接棒?
2024-06-26 15:18
人与AI会产生爱情吗,专家发话了!
2024-06-17 17:28