大语言模型排行榜评估方法介绍

新知榜官方账号

2023-07-20 02:50:44

比较式排行榜

比较式排行榜是基于多个模型之间的对比得到的。比较式排行榜反映了「综合实力」的强弱,像是许多棋牌类比赛的棋手排名(赢了排名上升,输了排名下降)。比较有代表性的榜单是斯坦福的AlpacaEval、LMSYS的ChatbotArenaLeaderboard。

AlpacaEval

AlpacaEval是通过询问语言模型(例如GPT-4)一些问题,让其对其他大模型进行排名。相比基于数据集的评估方法,AlpacaEval这种方法不再需要准备大量的测试数据,节省了人工成本。但也存在评估维度单一、评估标准不够透明等不足。

LMSYS的ChatbotArenaLeaderboard

LMSYS的全称是LargeModelSystemsOrganization,一个开发开源大语言模型(LLM)和系统的非营利组织。它们最出名的项目是Vicuna,一个可以达到ChatGPT90%水平的LLM。ChatbotArena也是他们的项目,利用游戏化和众包的方式,让用户选择随机出现的两个LLM输出哪一个更好。

评分式排行榜

评分式排行榜的基础是对每一个大模型使用同样的规则进行评分,类似于做同一份试卷。评分能否衡量出大模型真正的实力,主要就是看如何设计“试卷”,既要区分出“小学生”和“高中生”在知识和能力上的差距,也要区分出“听话的”和“调皮的”学生在回答用户提问时的差距。比较有代表性的评分式排行榜是HuggingFace的OpenLLMLeaderboard。

OpenLLMLeaderboard

OpenLLMLeaderboard使用4个指标为大模型评分,不同的指标侧重在不同维度(例如知识、推理等)的考核。指标1,AI2ReasoningChallenge;指标2,HellaSwag;指标3,MMLU;指标4,TruthfulQA。此外,还有一个指标在训练ChatGPT的过程中起到了关键的作用,也顺便介绍一下:RealToxicityPrompts数据集可以用来评估大模型生成的内容的负面、伤害性或冒犯性的程度。

总结

本文介绍了大语言模型排行榜的两种评估方法:比较式排行榜和评分式排行榜,以及HuggingFace的OpenLLMLeaderboard使用的参考指标,包括AI2ReasoningChallenge、HellaSwag、MMLU和TruthfulQA等四种数据集,以及RealToxicityPrompts数据集。同时,介绍了智源研究院发布的「天秤」评测平台。

本页网址:https://www.xinzhibang.net/article_detail-8378.html

寻求报道,请 点击这里 微信扫码咨询

关键词

大语言模型 排行榜 评估方法

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯