新知榜官方账号
2023-12-08 16:22:35
从开源热度和快速应用角度以及国内环境,入门级LLM模型可选:ChatGLM-6B,ChatGLM2-6B,Baichuan-13B,InternLM-Chat-7B。高级的商用,可选GPT/GLM等基座模型自行预训练和精调或者使用平台级公司开放的大模型API。性能评测结果如下表所示:
数据集/模型 | InternLM-Chat-7B | ChatGLM2-6B | Baichuan-7B | LLaMA-7B | Alpaca-7B | Vicuna-7B |
---|---|---|---|---|---|---|
C-Eval(Val) | 53.2 | 50.9 | 42.7 | 24.2 | 28.9 | 31.2 |
MMLU | 50.8 | 46.0 | 41.5 | 35.2* | 39.7 | 47.3 |
AGIEval | 42.5 | 39.0 | 24.6 | 20.8 | 24.1 | 26.4 |
CommonSenseQA | 75.2 | 60.0 | 58.8 | 65.0 | 68.7 | 66.7 |
BUSTM | 74.3 | 55.0 | 51.3 | 48.5 | 48.8 | 62.5 |
CLUEWSC | 78.6 | 59.8 | 52.8 | 50.3 | 50.3 | 52.2 |
MATH | 6.4 | 6.6 | 3.0 | 2.8 | 2.2 | 2.8 |
GSM8K | 34.5 | 29.2 | 9.7 | 10.1 | 6.0 | 15.3 |
HumanEval | 14.0 | 9.2 | 9.2 | 14.0 | 9.2 | 11.0 |
RACE(High) | 76.3 | 66.3 | 28.1 | 46.9* | 40.7 | 54.0 |
值得一提的是,InternLM-Chat-7B作为一个新出的70亿参数LLM模型,从评测的结果看还是比较令人惊艳的,几乎与Baichuan-13B130亿参数的模型的评测结果不相上下。期待它在实际应用中的效果验证,以及它的高性能版书生·浦语104B的应用效果。
我们在各个权威大语言模型的中英文benchmark上进行了5-shot评测。结果如下表所示:
Average | STEM | SocialSciences | Humanities | Others | |
---|---|---|---|---|---|
Chinese-Alpaca-Plus-13B | 38.8 | 35.2 | 45.6 | 40.0 | 38.2 |
Vicuna-13B | 32.8 | 30.5 | 38.2 | 32.5 | 32.5 |
Chinese-LLaMA-Plus-13B | 32.1 | 30.3 | 38.0 | 32.9 | 29.1 |
Ziya-LLaMA-13B-Pretrain | 30.0 | 27.6 | 34.4 | 32.0 | 28.6 |
LLaMA-13B | 28.5 | 27.0 | 33.6 | 27.7 | 27.6 |
moss-moon-003-base(16B) | 27.4 | 27.0 | 29.1 | 27.2 | 26.9 |
Baichuan-7B | 42.8 | 38.2 | 52.0 | 46.2 | 39.3 |
Baichuan-13B-Base | 52.4 | 45.9 | 63.5 | 57.2 | 49.3 |
Baichuan-13B-Chat | 51.5 | 43.7 | 64.6 | 56.2 | 49.2 |
MMLU | 52.0 | 40.4 | 60.5 | 49.5 | 58.4 |
LLaMA-13B | 46.3 | 36.1 | 53.0 | 44.0 | 52.8 |
Chinese-Alpaca-Plus-13B | 43.9 | 36.9 | 48.9 | 40.5 | 50.5 |
Ziya-LLaMA-13B-Pretrain | 42.9 | 35.6 | 47.6 | 40.1 | 49.4 |
Baichuan-7B | 42.3 | 35.6 | 48.9 | 38.4 | 48.1 |
Chinese-LLaMA-Plus-13B | 39.2 | 33.1 | 42.8 | 37.0 | 44.6 |
moss-moon-003-base(16B) | 23.6 | 22.4 | 22.8 | 24.2 | 24.4 |
Baichuan-13B-Base | 51.6 | 41.6 | 60.9 | 47.4 | 58.5 |
Baichuan-13B-Chat | 52.1 | 40.9 | 60.9 | 48.8 | 59.0 |
相关工具
相关文章
相关快讯
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16