7位AI考生做今年高考题,能过一本线吗?

新知榜官方账号

2024-07-19 17:17:23

最近,上海人工智能实验室公布了 7 个 AI 大模型的高考全科目测试结果!

InternLM2-20B-WQX(书生・浦语 2.0 系列文曲星大模型)、GPT-4o 以及 Qwen2-72B (阿里通义千问大模型 )包揽了文、理科前三名。

微信截图_20240719094525.png

以今年高考人数最多的河南省分数线为参考(本科一批文科521分,理科511分;本科二批文科428分,理科396分),这前三名的文科成绩都超过了一本线,理科成绩要差一些,只过了二本线。

7位AI考生什么来头?

在了解此次考试详情前,咱先来看看这7位考生是什么来头?

1、InternLM2-20B-WQX

早在今年1月份,上海人工智能实验室旗下的新一代大语言模型书⽣·浦语2.0(InternLM2)正式发布并开源。

根据大语言模型的应用方式和用户关注的重点领域,研究人员定义了语言、知识、推理、数学、代码、考试等六个能力维度,在55个主流评测集上对多个同量级模型的表现进行了综合评测。结果显示,InternLM2的轻量级(7B)及中量级(20B)版本性能在同量级模型中表现优异。

638410891278070000.png

为测试InternLM2在真实长文本处理任务中的能力,研究人员将一份时长3小时的公开会议录音转录稿输入模型中,并要求InternLM2从中提取出关键信息。结果表明,尽管在未校对的文本中存在较多错别字,但InternLM2仍从中准确提炼出了关键信息,并总结了发言人的主要观点。

638410890779020000.png

2、GPT-4o

接下来是GPT-4o,这个大家应该都不陌生吧!GPT-4o于今年5月13日发布,该模型比其前身GPT-4快两倍,而价格仅为其50%。所以,你可以把GPT-4o理解为GPT-4的升级版。

3、Qwen2-72B

说到Qwen2(阿里通义千问大模型 ),那绝对是国内大模型的头号玩家!

Qwen2-72B 到底有多强呢?

2024 年 6 月 7 日, Qwen2-72B 发布后在十几项国际权威测评中,一举斩获多项世界冠军。

微信截图_20240719102155.png

当时,“红衣大叔”周鸿祎也发布视频,点赞Qwen2大模型。他说,让大模型从原子弹变成了茶叶蛋,让企业从此可以低成本使用。

微信截图_20240719102308.png

4、Qwen2-57B

上面刚讲了Qwen2-72B ,Qwen2-57B 自然要弱一些,但相比国内众多大模型,依然能打!

5、Yi-1.5-34B

今年5 月 ,零一万物 Yi 系列开源模型全新升级为 Yi-1.5。相较于去年 11 月的开源版本,这次的 Yi-1.5通过增量训练 500B 高质量 token,大幅提高了数学逻辑、代码能力。

可能有些伙伴没有听过零一万物,但你肯定听过李开复。

微信截图_20240719103559.png

零一万物是由李开复博士于2023年7月筹组成立的人工智能公司,专注于开发和应用大模型技术。目前估值超过10亿美元,俨然成为AI领域的独角兽公司。

6、GLM-4-9B

智谱于 2024年6月5日发布了其新一代开源模型——GLM-4-9B,以 9B 的体量,同时支持了 128K 长上下文推理、26种语言多语言支持,且在多个经典评测任务上都实现了超过以往同等开源模型的效果。

微信截图_20240719104627.png

7、Mixtral 8x22B

Mixtral 8x22B是法国AI创业公司Mistral于今年4月开源的对话模型。

Mixtral 8x22B 具有以下优势:能够流利地使用英语、法语、意大利语、德语和西班牙语;具有强大的数学和编程能力等。

微信截图_20240719111456.png

大模型都喜欢文科?

整体来看,7位AI考生都偏文科,而且偏得很厉害!

这7位AI考生的文科成绩远远超过理科成绩,而且前三名中,文科成绩都超过了一本线,而理科成绩只过了二本线。

语文最低分77.5分,最高分来自Qwen2-72B的127分,前三名都在110分以上。

微信截图_20240719110542.png

可以看出,国内模型在语文上相较于GPT-4o存在优势。从各类题目来看,模型在现代文阅读、古诗文阅读、名句默写和作文上有着高于70%的平均得分率。

但在语言文字运用上得分率只有30%,原因是许多大模型不能很好理解并遵循题目的要求。

比如,语文考试中一道填空题为:

唐代诗人写时事,常常托之于汉代,如“__,__”,就是借汉喻唐,以古仿今。

某大模型作答:“想知汉武宫香径,请看长安市醉人”

感觉挺对仗的,而且“以古仿今”,部分阅卷老师误以为自己不知道这首诗,实际上这句诗是大模型虚构的!

再来看英语。7位AI考生的听力都拿到了满分,而且阅读理解也表现优秀,所有大模型平均得分率达到了96.2%。GPT-4o以141.5分获得了第一名,并且有阅卷老师高度赞赏GPT-4o的英文作文,仅因为字数原因酌情扣掉1分。

微信截图_20240719112116.png

有意思的是,在作文部分,大部分大模型都因为超出字数限制导致扣分,而人类考生因为字数扣分多是由于字数不够,并且大模型普遍存在单段落过长的问题。

以下是其他文科科目成绩:

1.png

3.png

总体来看,历史、政治的分数都还可以。让我没想到的是地理考试,Qwen2居然只得了4分,咱单选题闭眼选,也不至于才4分啊!

2.png

最差考生的数学只考了21分

在上文我提到了,Mixtral 8x22B 自称的优势之一是具有强大的数学和编程能力。

但实际结果啪啪打脸,Mixtral 8x22B倒数第一,文科363分,理科321分,数学居然只得了21分,不是说拥有强大的数学能力吗?

4.png

其他AI考生同样考得很差!数学是所有大模型得分率最低的学科。

值得注意的是,数学问答题对所有大模型都是巨大挑战,5道问答题平均得分率仅为18.9%。评测的所有模型中,没有任何一个模型对任何一道大题被完全做对。

通过检查模型答案,评测团队发现,模型会出现一些完全不符合逻辑的推断,比如:

638568964259500000.jpg

除了数学,其他理科科目成绩同样很差劲!

5.png

6.png

7.png

总的来看,目前的大模型跟人类水平还差得很远,至少在考试这方面,完全不是一个水平的,毕竟咱文理科状元700多分的,也有很多。

尤其在理科方面,大模型的逻辑推理能力很差,也不会将知识灵活运用,有时甚至会答非所问、虚构内容(比如编造诗句)。

所以,AI大模型发展依然路漫漫。

试想下,在不久的未来,如果AI大模型的高考分数能够达到600分、700分,甚至接近满分之时,那将是一个怎样的世界啊!

本页网址:https://www.xinzhibang.net/article_detail-22632.html

寻求报道,请 点击这里 微信扫码咨询

相关文章