AI大模型“刷榜”现象,真相到底如何?

新知榜官方账号

2023-11-10 02:01:25

AI大模型“刷榜”现象,真相到底如何?

今年层出不穷的AIGC工具和软件,让大家的工作效率提升了不止一点点。然而,一些人发现了一点异常——AI大模型公司存在“刷榜”现象。本文将揭开这个话题的真相。

11月6日,伴随OpenAI庆祝ChatGPT上线一周年暨开发者大会,我们迈过了「AI元年」。上半年,大模型满天飞,下半年,应用纷纷落地。但凡稍微大一点的互联网公司,没有推出“自研大模型”,创始人名字都得倒着写。最近,手机厂商和芯片大厂纷纷进场打榜,发布会一开,个个都是「跨越式突破」,每家都是「排行第一」。要么是打破了Benchmark测评基准的历史记录;要么是实现了「×亿内」参数量的第一名。在这里,EVA就不点名了。

在兴奋于技术进展迅速之余,有一些人发现了一点异常——AI大模型公司存在“刷榜”现象。关注手机圈的家人们,都经历过“娱乐兔”和DxOMark这两个「跑分大战」的阶段。越来越多人开始发出疑问,语言模型测评Benchmark这种东西,到底靠不靠谱?

直到近日,知乎上有一个帖子引起了大家的广泛关注。文章标题是:《如何评价天工大模型技术报告中指出很多大模型用领域内数据刷榜的现象?》是的,就是所谓的“大模型刷榜”。

针对新发布大模型进行“刷榜”,往往有其个中无奈的商业逻辑——需要对投资人的期望给予足够的正向反馈,或者面对用户时展示自己的技术实力。看完知乎全文,有网友对此评论道:终于有人敢将“内幕”公之于众了。还有网友表示:大模型的智力水平,最好的办法就是盲训(zero-shot)和挑战一些几乎不可能出现在测试集的题目。智商不够的EVA仔细想了一下,某“高智商贴吧”似乎又占领了高地?

本文来自丨AI奇点网丨全网账号同名丨欢迎搜索关注

本页网址:https://www.xinzhibang.net/article_detail-19498.html

寻求报道,请 点击这里 微信扫码咨询

关键词

AI 大模型 刷榜

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯