新知榜官方账号
2023-10-29 02:30:26
ChatGLM3是智谱AI发布的一系列大语言模型,最新的ChatGLM3-6B版本在性能和能力上都有很大的提升,仍然免费商用授权。
本文介绍了ChatGLM3的具体性能表现、训练细节、以及其他能力,包括代码执行、多模态等。同时提供了开源地址和信息。
ChatGLM系列是国产大语言模型中最强大最著名的模型之一。在第一代ChatGLM-6B在2023年3月份推出,开源推出之后不久就获得了很多的关注和使用。3个月后的2023年6月份,ChatGLM2发布,再次引起了广泛的关注。2023年的10月27日,智谱AI联合清华大学再次发布第三代基础大语言模型ChatGLM3系列。本次发布的第三代模型共包含3个:基础大语言模型ChatGLM3-6B-Base、对话调优大语言模型ChatGLM3-6B和长文本对话大语言模型ChatGLM3-6B-32K。
根据官方的描述,ChatGLM3的性能比第二大有大幅的提高。在各项评测中的得分均有大幅提升。ChatGLM3-6B-Base具有在10B以下的基础模型中最强的性能。具体评测结果和提升结果见表格。
模型版本 | 评测任务 | 评测方向 | 得分 | 相比第二代提升 |
---|---|---|---|---|
ChatGLM2-6B-Base | MMLU | 自然语言理解等 | 47.9 | - |
ChatGLM2-6B-Base | GSM8K | 数学能力 | 32.4 | - |
ChatGLM2-6B-Base | C-Eval | 中文能力 | 51.7 | - |
ChatGLM3-6B-Base | MMLU | 自然语言理解等 | 61.4 | 36% |
ChatGLM3-6B-Base | GSM8K | 数学能力 | 72.3 | 179% |
ChatGLM3-6B-Base | C-Eval | 中文能力 | 69 | 33.5% |
虽然官方没有详细公布ChatGLM3的相关训练信息,但是也有一些基本的数据供大家参考。ChatGLM3-6B的基础模型的训练使用了更多且更加多样的数据,更充分的训练步数和合理的训练策略;其次是ChatGLM3-6B针对Prompt设计做了提升,可以让模型在普通的对话外,对CodeInterpreter,Tool&Agent等任务的输入支持更好。下图是一个案例:
<|system|>YouareChatGLM3,alargelanguagemodeltrainedbyZhipu.AI.Followtheuser'sinstructionscarefully.Respondusingmarkdown.<|user|>Hello<|assistant|>Hello,I'mChatGLM3.WhatcanIassistyoutoday?
更多的prompt样例参考:https://github.com/THUDM/ChatGLM3/blob/main/PROMPT.md
ChatGLM3系列模型除了基本对话能力的提升外还有诸多支持:更强的代码执行能力,即CodeInterpreter;网络搜索增强WebGLM;全新的Agent智能体能力;多模态能力,官方宣称多模态理解能力的CogVLM;端侧推理:ChatGLM3本次推出可手机部署的端测模型ChatGLM3-1.5B和ChatGLM3-3B,支持在手机端的调用。
ChatGLM系列是国产非常具有影响力的大语言模型系列,从3月份开源第一代到现在7个月之后迭代到第三代,发展十分迅猛。而且,在AIAgent、代码执行、多模态等方面都有非常好的布局和提升,十分值得大家关注。此外,友好的开源协议,免费的商用授权也是十分不错的。
关于模型具体的开源地址和信息,大家可以参考DataLearnerAI的模型信息卡。
相关工具
相关文章
推荐
中国首款3A游戏上线,《黑神话:悟空》出圈!
2024-08-21 13:46
盘点15款AI配音工具,短视频配音有救了!
2024-08-12 17:11
短视频文案没创意?10大AI写作工具来帮你!
2024-08-05 16:23
Midjourney发布V6.1版本,我已分不清AI和现实了!
2024-08-01 15:03
我发现了一款国产AI绘画神器,免费易上手!
2024-07-25 16:40
7位AI考生做今年高考题,能过一本线吗?
2024-07-19 17:17
世界上第一所AI学校来了,80亿人只需要1位老师?
2024-07-18 17:12
Sora首部AI广告片上线,广告从业者危险了!
2024-06-27 13:44
OpenAI与中国说拜拜,国产AI如何接棒?
2024-06-26 15:18
人与AI会产生爱情吗,专家发话了!
2024-06-17 17:28