新知榜官方账号
2023-12-08 16:22:35
从开源热度和快速应用角度以及国内环境,入门级LLM模型可选:ChatGLM-6B,ChatGLM2-6B,Baichuan-13B,InternLM-Chat-7B。高级的商用,可选GPT/GLM等基座模型自行预训练和精调或者使用平台级公司开放的大模型API。性能评测结果如下表所示:
数据集/模型 | InternLM-Chat-7B | ChatGLM2-6B | Baichuan-7B | LLaMA-7B | Alpaca-7B | Vicuna-7B |
---|---|---|---|---|---|---|
C-Eval(Val) | 53.2 | 50.9 | 42.7 | 24.2 | 28.9 | 31.2 |
MMLU | 50.8 | 46.0 | 41.5 | 35.2* | 39.7 | 47.3 |
AGIEval | 42.5 | 39.0 | 24.6 | 20.8 | 24.1 | 26.4 |
CommonSenseQA | 75.2 | 60.0 | 58.8 | 65.0 | 68.7 | 66.7 |
BUSTM | 74.3 | 55.0 | 51.3 | 48.5 | 48.8 | 62.5 |
CLUEWSC | 78.6 | 59.8 | 52.8 | 50.3 | 50.3 | 52.2 |
MATH | 6.4 | 6.6 | 3.0 | 2.8 | 2.2 | 2.8 |
GSM8K | 34.5 | 29.2 | 9.7 | 10.1 | 6.0 | 15.3 |
HumanEval | 14.0 | 9.2 | 9.2 | 14.0 | 9.2 | 11.0 |
RACE(High) | 76.3 | 66.3 | 28.1 | 46.9* | 40.7 | 54.0 |
值得一提的是,InternLM-Chat-7B作为一个新出的70亿参数LLM模型,从评测的结果看还是比较令人惊艳的,几乎与Baichuan-13B130亿参数的模型的评测结果不相上下。期待它在实际应用中的效果验证,以及它的高性能版书生·浦语104B的应用效果。
我们在各个权威大语言模型的中英文benchmark上进行了5-shot评测。结果如下表所示:
Average | STEM | SocialSciences | Humanities | Others | |
---|---|---|---|---|---|
Chinese-Alpaca-Plus-13B | 38.8 | 35.2 | 45.6 | 40.0 | 38.2 |
Vicuna-13B | 32.8 | 30.5 | 38.2 | 32.5 | 32.5 |
Chinese-LLaMA-Plus-13B | 32.1 | 30.3 | 38.0 | 32.9 | 29.1 |
Ziya-LLaMA-13B-Pretrain | 30.0 | 27.6 | 34.4 | 32.0 | 28.6 |
LLaMA-13B | 28.5 | 27.0 | 33.6 | 27.7 | 27.6 |
moss-moon-003-base(16B) | 27.4 | 27.0 | 29.1 | 27.2 | 26.9 |
Baichuan-7B | 42.8 | 38.2 | 52.0 | 46.2 | 39.3 |
Baichuan-13B-Base | 52.4 | 45.9 | 63.5 | 57.2 | 49.3 |
Baichuan-13B-Chat | 51.5 | 43.7 | 64.6 | 56.2 | 49.2 |
MMLU | 52.0 | 40.4 | 60.5 | 49.5 | 58.4 |
LLaMA-13B | 46.3 | 36.1 | 53.0 | 44.0 | 52.8 |
Chinese-Alpaca-Plus-13B | 43.9 | 36.9 | 48.9 | 40.5 | 50.5 |
Ziya-LLaMA-13B-Pretrain | 42.9 | 35.6 | 47.6 | 40.1 | 49.4 |
Baichuan-7B | 42.3 | 35.6 | 48.9 | 38.4 | 48.1 |
Chinese-LLaMA-Plus-13B | 39.2 | 33.1 | 42.8 | 37.0 | 44.6 |
moss-moon-003-base(16B) | 23.6 | 22.4 | 22.8 | 24.2 | 24.4 |
Baichuan-13B-Base | 51.6 | 41.6 | 60.9 | 47.4 | 58.5 |
Baichuan-13B-Chat | 52.1 | 40.9 | 60.9 | 48.8 | 59.0 |
相关工具
相关文章
相关快讯
推荐
中国首款3A游戏上线,《黑神话:悟空》出圈!
2024-08-21 13:46
盘点15款AI配音工具,短视频配音有救了!
2024-08-12 17:11
短视频文案没创意?10大AI写作工具来帮你!
2024-08-05 16:23
Midjourney发布V6.1版本,我已分不清AI和现实了!
2024-08-01 15:03
我发现了一款国产AI绘画神器,免费易上手!
2024-07-25 16:40
7位AI考生做今年高考题,能过一本线吗?
2024-07-19 17:17
世界上第一所AI学校来了,80亿人只需要1位老师?
2024-07-18 17:12
Sora首部AI广告片上线,广告从业者危险了!
2024-06-27 13:44
OpenAI与中国说拜拜,国产AI如何接棒?
2024-06-26 15:18
人与AI会产生爱情吗,专家发话了!
2024-06-17 17:28