新知榜官方账号
2023-11-10 02:01:25
今年层出不穷的AIGC工具和软件,让大家的工作效率提升了不止一点点。然而,一些人发现了一点异常——AI大模型公司存在“刷榜”现象。本文将揭开这个话题的真相。
11月6日,伴随OpenAI庆祝ChatGPT上线一周年暨开发者大会,我们迈过了「AI元年」。上半年,大模型满天飞,下半年,应用纷纷落地。但凡稍微大一点的互联网公司,没有推出“自研大模型”,创始人名字都得倒着写。最近,手机厂商和芯片大厂纷纷进场打榜,发布会一开,个个都是「跨越式突破」,每家都是「排行第一」。要么是打破了Benchmark测评基准的历史记录;要么是实现了「×亿内」参数量的第一名。在这里,EVA就不点名了。
在兴奋于技术进展迅速之余,有一些人发现了一点异常——AI大模型公司存在“刷榜”现象。关注手机圈的家人们,都经历过“娱乐兔”和DxOMark这两个「跑分大战」的阶段。越来越多人开始发出疑问,语言模型测评Benchmark这种东西,到底靠不靠谱?
直到近日,知乎上有一个帖子引起了大家的广泛关注。文章标题是:《如何评价天工大模型技术报告中指出很多大模型用领域内数据刷榜的现象?》是的,就是所谓的“大模型刷榜”。
针对新发布大模型进行“刷榜”,往往有其个中无奈的商业逻辑——需要对投资人的期望给予足够的正向反馈,或者面对用户时展示自己的技术实力。看完知乎全文,有网友对此评论道:终于有人敢将“内幕”公之于众了。还有网友表示:大模型的智力水平,最好的办法就是盲训(zero-shot)和挑战一些几乎不可能出现在测试集的题目。智商不够的EVA仔细想了一下,某“高智商贴吧”似乎又占领了高地?
本文来自丨AI奇点网丨全网账号同名丨欢迎搜索关注
相关工具
相关文章
相关快讯
推荐
中国首款3A游戏上线,《黑神话:悟空》出圈!
2024-08-21 13:46
盘点15款AI配音工具,短视频配音有救了!
2024-08-12 17:11
短视频文案没创意?10大AI写作工具来帮你!
2024-08-05 16:23
Midjourney发布V6.1版本,我已分不清AI和现实了!
2024-08-01 15:03
我发现了一款国产AI绘画神器,免费易上手!
2024-07-25 16:40
7位AI考生做今年高考题,能过一本线吗?
2024-07-19 17:17
世界上第一所AI学校来了,80亿人只需要1位老师?
2024-07-18 17:12
Sora首部AI广告片上线,广告从业者危险了!
2024-06-27 13:44
OpenAI与中国说拜拜,国产AI如何接棒?
2024-06-26 15:18
人与AI会产生爱情吗,专家发话了!
2024-06-17 17:28