阿里云推出大规模视觉语言模型Qwen-VL,支持图像问答、细粒度视觉定位等多种场景应用

新知榜官方账号

2023-08-30 10:08:41

背景

随着ChatGPT的快速进化吸引了全球网友的眼球,国内厂商也纷纷表示将推出相似的产品。不久前,笔者为大家整理了多款已宣布推出的国产AI,包括百度的“文心一言”、阿里巴巴的“通义千问”、360的“360智脑”等。其中,百度的AI产品率先进行测试,目前已在某些场景中得到实际应用。这些AI产品的推出标志着中国科技企业在人工智能领域取得了新的突破,展示出了强大的技术实力和市场竞争力。这些AI产品的应用前景广阔,将在未来为我们的生活和工作带来更多的便利和创新。

就在昨晚,阿里云推出了大规模视觉语言模型Qwen-VL,目前已经在ModeScope开源。据相关媒体报道,阿里云此前已经开源了通义千问70亿参数通用模型Qwen-7B和对话模型Qwen-7B-Chat。Qwen-VL是一款支持中英文等多种语言的视觉语言(VisionLanguage,VL)模型,相比之前的VL模型,它除了具备基本的图文识别、描述、问答及对话能力之外,还新增了视觉定位、图像中文字理解等功能。Qwen-VL以Qwen-7B为基座语言模型,在模型架构上引入视觉编码器,使得模型支持视觉信号输入,该模型支持的图像输入分辨率为448,此前开源的LVLM模型通常仅支持224分辨率。官方表示,该模型可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景,在主流的多模态任务评测和多模态聊天能力评测中,取得了远超同等规模通用模型的表现。

此外,在Qwen-VL的基础上,通义千问团队使用对齐机制,打造了基于LLM的视觉AI助手Qwen-VL-Chat,可让开发者快速搭建具备多模态能力的对话应用。通义千问团队同时表示,为了测试模型的多模态对话能力,他们构建了一套基GPT-4打分机制的测试集“试金石”,对Qwen-VL-Chat及其他模型进行对比测试,Qwen-VL-Chat在中英文的对齐评测中均取得了开源LVLM最好结果。而据之前的介绍,此前阿里云已经开源了通义千问70亿参数模型,包括通用模型Qwen-7B和对话模型Qwen-7B-Chat,两款模型均已上线魔搭社区,开源、免费、可商用。

本页网址:https://www.xinzhibang.net/article_detail-10604.html

寻求报道,请 点击这里 微信扫码咨询

关键词

阿里云 Qwen-VL 视觉语言模型

分享至微信: 微信扫码阅读

相关工具

相关文章