新知榜官方账号
2024-07-19 17:17:23
最近,上海人工智能实验室公布了 7 个 AI 大模型的高考全科目测试结果!
InternLM2-20B-WQX(书生・浦语 2.0 系列文曲星大模型)、GPT-4o 以及 Qwen2-72B (阿里通义千问大模型 )包揽了文、理科前三名。
以今年高考人数最多的河南省分数线为参考(本科一批文科521分,理科511分;本科二批文科428分,理科396分),这前三名的文科成绩都超过了一本线,理科成绩要差一些,只过了二本线。
7位AI考生什么来头?
在了解此次考试详情前,咱先来看看这7位考生是什么来头?
1、InternLM2-20B-WQX
早在今年1月份,上海人工智能实验室旗下的新一代大语言模型书⽣·浦语2.0(InternLM2)正式发布并开源。
根据大语言模型的应用方式和用户关注的重点领域,研究人员定义了语言、知识、推理、数学、代码、考试等六个能力维度,在55个主流评测集上对多个同量级模型的表现进行了综合评测。结果显示,InternLM2的轻量级(7B)及中量级(20B)版本性能在同量级模型中表现优异。
为测试InternLM2在真实长文本处理任务中的能力,研究人员将一份时长3小时的公开会议录音转录稿输入模型中,并要求InternLM2从中提取出关键信息。结果表明,尽管在未校对的文本中存在较多错别字,但InternLM2仍从中准确提炼出了关键信息,并总结了发言人的主要观点。
2、GPT-4o
接下来是GPT-4o,这个大家应该都不陌生吧!GPT-4o于今年5月13日发布,该模型比其前身GPT-4快两倍,而价格仅为其50%。所以,你可以把GPT-4o理解为GPT-4的升级版。
3、Qwen2-72B
说到Qwen2(阿里通义千问大模型 ),那绝对是国内大模型的头号玩家!
Qwen2-72B 到底有多强呢?
2024 年 6 月 7 日, Qwen2-72B 发布后在十几项国际权威测评中,一举斩获多项世界冠军。
当时,“红衣大叔”周鸿祎也发布视频,点赞Qwen2大模型。他说,让大模型从原子弹变成了茶叶蛋,让企业从此可以低成本使用。
4、Qwen2-57B
上面刚讲了Qwen2-72B ,Qwen2-57B 自然要弱一些,但相比国内众多大模型,依然能打!
5、Yi-1.5-34B
今年5 月 ,零一万物 Yi 系列开源模型全新升级为 Yi-1.5。相较于去年 11 月的开源版本,这次的 Yi-1.5通过增量训练 500B 高质量 token,大幅提高了数学逻辑、代码能力。
可能有些伙伴没有听过零一万物,但你肯定听过李开复。
零一万物是由李开复博士于2023年7月筹组成立的人工智能公司,专注于开发和应用大模型技术。目前估值超过10亿美元,俨然成为AI领域的独角兽公司。
6、GLM-4-9B
智谱于 2024年6月5日发布了其新一代开源模型——GLM-4-9B,以 9B 的体量,同时支持了 128K 长上下文推理、26种语言多语言支持,且在多个经典评测任务上都实现了超过以往同等开源模型的效果。
7、Mixtral 8x22B
Mixtral 8x22B是法国AI创业公司Mistral于今年4月开源的对话模型。
Mixtral 8x22B 具有以下优势:能够流利地使用英语、法语、意大利语、德语和西班牙语;具有强大的数学和编程能力等。
大模型都喜欢文科?
整体来看,7位AI考生都偏文科,而且偏得很厉害!
这7位AI考生的文科成绩远远超过理科成绩,而且前三名中,文科成绩都超过了一本线,而理科成绩只过了二本线。
语文最低分77.5分,最高分来自Qwen2-72B的127分,前三名都在110分以上。
可以看出,国内模型在语文上相较于GPT-4o存在优势。从各类题目来看,模型在现代文阅读、古诗文阅读、名句默写和作文上有着高于70%的平均得分率。
但在语言文字运用上得分率只有30%,原因是许多大模型不能很好理解并遵循题目的要求。
比如,语文考试中一道填空题为:
唐代诗人写时事,常常托之于汉代,如“__,__”,就是借汉喻唐,以古仿今。
某大模型作答:“想知汉武宫香径,请看长安市醉人”
感觉挺对仗的,而且“以古仿今”,部分阅卷老师误以为自己不知道这首诗,实际上这句诗是大模型虚构的!
再来看英语。7位AI考生的听力都拿到了满分,而且阅读理解也表现优秀,所有大模型平均得分率达到了96.2%。GPT-4o以141.5分获得了第一名,并且有阅卷老师高度赞赏GPT-4o的英文作文,仅因为字数原因酌情扣掉1分。
有意思的是,在作文部分,大部分大模型都因为超出字数限制导致扣分,而人类考生因为字数扣分多是由于字数不够,并且大模型普遍存在单段落过长的问题。
以下是其他文科科目成绩:
总体来看,历史、政治的分数都还可以。让我没想到的是地理考试,Qwen2居然只得了4分,咱单选题闭眼选,也不至于才4分啊!
最差考生的数学只考了21分
在上文我提到了,Mixtral 8x22B 自称的优势之一是具有强大的数学和编程能力。
但实际结果啪啪打脸,Mixtral 8x22B倒数第一,文科363分,理科321分,数学居然只得了21分,不是说拥有强大的数学能力吗?
其他AI考生同样考得很差!数学是所有大模型得分率最低的学科。
值得注意的是,数学问答题对所有大模型都是巨大挑战,5道问答题平均得分率仅为18.9%。评测的所有模型中,没有任何一个模型对任何一道大题被完全做对。
通过检查模型答案,评测团队发现,模型会出现一些完全不符合逻辑的推断,比如:
除了数学,其他理科科目成绩同样很差劲!
总的来看,目前的大模型跟人类水平还差得很远,至少在考试这方面,完全不是一个水平的,毕竟咱文理科状元700多分的,也有很多。
尤其在理科方面,大模型的逻辑推理能力很差,也不会将知识灵活运用,有时甚至会答非所问、虚构内容(比如编造诗句)。
所以,AI大模型发展依然路漫漫。
试想下,在不久的未来,如果AI大模型的高考分数能够达到600分、700分,甚至接近满分之时,那将是一个怎样的世界啊!
相关文章
推荐
中国首款3A游戏上线,《黑神话:悟空》出圈!
2024-08-21 13:46
盘点15款AI配音工具,短视频配音有救了!
2024-08-12 17:11
短视频文案没创意?10大AI写作工具来帮你!
2024-08-05 16:23
Midjourney发布V6.1版本,我已分不清AI和现实了!
2024-08-01 15:03
我发现了一款国产AI绘画神器,免费易上手!
2024-07-25 16:40
7位AI考生做今年高考题,能过一本线吗?
2024-07-19 17:17
世界上第一所AI学校来了,80亿人只需要1位老师?
2024-07-18 17:12
Sora首部AI广告片上线,广告从业者危险了!
2024-06-27 13:44
OpenAI与中国说拜拜,国产AI如何接棒?
2024-06-26 15:18
人与AI会产生爱情吗,专家发话了!
2024-06-17 17:28