智谱AI与清华大学联合发布第三代基座大语言模型ChatGLM3:6B版本的ChatGLM3能力大幅增强,依然免费商用授权!

新知榜官方账号

2023-10-29 02:30:26

智谱AI与清华大学联合发布第三代基座大语言模型ChatGLM3:6B版本的ChatGLM3能力大幅增强,依然免费商用授权!

ChatGLM3是智谱AI发布的一系列大语言模型,最新的ChatGLM3-6B版本在性能和能力上都有很大的提升,仍然免费商用授权。

本文介绍了ChatGLM3的具体性能表现、训练细节、以及其他能力,包括代码执行、多模态等。同时提供了开源地址和信息。

ChatGLM3简介

ChatGLM系列是国产大语言模型中最强大最著名的模型之一。在第一代ChatGLM-6B在2023年3月份推出,开源推出之后不久就获得了很多的关注和使用。3个月后的2023年6月份,ChatGLM2发布,再次引起了广泛的关注。2023年的10月27日,智谱AI联合清华大学再次发布第三代基础大语言模型ChatGLM3系列。本次发布的第三代模型共包含3个:基础大语言模型ChatGLM3-6B-Base、对话调优大语言模型ChatGLM3-6B和长文本对话大语言模型ChatGLM3-6B-32K。

ChatGLM3的性能结果

根据官方的描述,ChatGLM3的性能比第二大有大幅的提高。在各项评测中的得分均有大幅提升。ChatGLM3-6B-Base具有在10B以下的基础模型中最强的性能。具体评测结果和提升结果见表格。

模型版本评测任务评测方向得分相比第二代提升
ChatGLM2-6B-BaseMMLU自然语言理解等47.9-
ChatGLM2-6B-BaseGSM8K数学能力32.4-
ChatGLM2-6B-BaseC-Eval中文能力51.7-
ChatGLM3-6B-BaseMMLU自然语言理解等61.436%
ChatGLM3-6B-BaseGSM8K数学能力72.3179%
ChatGLM3-6B-BaseC-Eval中文能力6933.5%

ChatGLM3的训练细节

虽然官方没有详细公布ChatGLM3的相关训练信息,但是也有一些基本的数据供大家参考。ChatGLM3-6B的基础模型的训练使用了更多且更加多样的数据,更充分的训练步数和合理的训练策略;其次是ChatGLM3-6B针对Prompt设计做了提升,可以让模型在普通的对话外,对CodeInterpreter,Tool&Agent等任务的输入支持更好。下图是一个案例:

<|system|>YouareChatGLM3,alargelanguagemodeltrainedbyZhipu.AI.Followtheuser'sinstructionscarefully.Respondusingmarkdown.<|user|>Hello<|assistant|>Hello,I'mChatGLM3.WhatcanIassistyoutoday?

更多的prompt样例参考:https://github.com/THUDM/ChatGLM3/blob/main/PROMPT.md

ChatGLM3系列的其他能力

ChatGLM3系列模型除了基本对话能力的提升外还有诸多支持:更强的代码执行能力,即CodeInterpreter;网络搜索增强WebGLM;全新的Agent智能体能力;多模态能力,官方宣称多模态理解能力的CogVLM;端侧推理:ChatGLM3本次推出可手机部署的端测模型ChatGLM3-1.5B和ChatGLM3-3B,支持在手机端的调用。

总结

ChatGLM系列是国产非常具有影响力的大语言模型系列,从3月份开源第一代到现在7个月之后迭代到第三代,发展十分迅猛。而且,在AIAgent、代码执行、多模态等方面都有非常好的布局和提升,十分值得大家关注。此外,友好的开源协议,免费的商用授权也是十分不错的。

关于模型具体的开源地址和信息,大家可以参考DataLearnerAI的模型信息卡。

本页网址:https://www.xinzhibang.net/article_detail-18234.html

寻求报道,请 点击这里 微信扫码咨询

相关工具

相关文章