新知榜官方账号
2023-07-20 02:50:44
比较式排行榜是基于多个模型之间的对比得到的。比较式排行榜反映了「综合实力」的强弱,像是许多棋牌类比赛的棋手排名(赢了排名上升,输了排名下降)。比较有代表性的榜单是斯坦福的AlpacaEval、LMSYS的ChatbotArenaLeaderboard。
AlpacaEval是通过询问语言模型(例如GPT-4)一些问题,让其对其他大模型进行排名。相比基于数据集的评估方法,AlpacaEval这种方法不再需要准备大量的测试数据,节省了人工成本。但也存在评估维度单一、评估标准不够透明等不足。
LMSYS的全称是LargeModelSystemsOrganization,一个开发开源大语言模型(LLM)和系统的非营利组织。它们最出名的项目是Vicuna,一个可以达到ChatGPT90%水平的LLM。ChatbotArena也是他们的项目,利用游戏化和众包的方式,让用户选择随机出现的两个LLM输出哪一个更好。
评分式排行榜的基础是对每一个大模型使用同样的规则进行评分,类似于做同一份试卷。评分能否衡量出大模型真正的实力,主要就是看如何设计“试卷”,既要区分出“小学生”和“高中生”在知识和能力上的差距,也要区分出“听话的”和“调皮的”学生在回答用户提问时的差距。比较有代表性的评分式排行榜是HuggingFace的OpenLLMLeaderboard。
OpenLLMLeaderboard使用4个指标为大模型评分,不同的指标侧重在不同维度(例如知识、推理等)的考核。指标1,AI2ReasoningChallenge;指标2,HellaSwag;指标3,MMLU;指标4,TruthfulQA。此外,还有一个指标在训练ChatGPT的过程中起到了关键的作用,也顺便介绍一下:RealToxicityPrompts数据集可以用来评估大模型生成的内容的负面、伤害性或冒犯性的程度。
本文介绍了大语言模型排行榜的两种评估方法:比较式排行榜和评分式排行榜,以及HuggingFace的OpenLLMLeaderboard使用的参考指标,包括AI2ReasoningChallenge、HellaSwag、MMLU和TruthfulQA等四种数据集,以及RealToxicityPrompts数据集。同时,介绍了智源研究院发布的「天秤」评测平台。
相关工具
相关文章
相关快讯
推荐
中国首款3A游戏上线,《黑神话:悟空》出圈!
2024-08-21 13:46
盘点15款AI配音工具,短视频配音有救了!
2024-08-12 17:11
短视频文案没创意?10大AI写作工具来帮你!
2024-08-05 16:23
Midjourney发布V6.1版本,我已分不清AI和现实了!
2024-08-01 15:03
我发现了一款国产AI绘画神器,免费易上手!
2024-07-25 16:40
7位AI考生做今年高考题,能过一本线吗?
2024-07-19 17:17
世界上第一所AI学校来了,80亿人只需要1位老师?
2024-07-18 17:12
Sora首部AI广告片上线,广告从业者危险了!
2024-06-27 13:44
OpenAI与中国说拜拜,国产AI如何接棒?
2024-06-26 15:18
人与AI会产生爱情吗,专家发话了!
2024-06-17 17:28