7位AI考生做今年高考题，能过一本线吗？

新知榜官方账号

2024-07-19 17:17:23

最近，上海人工智能实验室公布了 7 个 AI 大模型的高考全科目测试结果！

InternLM2-20B-WQX（书生・浦语 2.0 系列文曲星大模型）、GPT-4o 以及 Qwen2-72B （阿里通义千问大模型）包揽了文、理科前三名。

微信截图_20240719094525.png

以今年高考人数最多的河南省分数线为参考（本科一批文科521分，理科511分；本科二批文科428分，理科396分），这前三名的文科成绩都超过了一本线，理科成绩要差一些，只过了二本线。

7位AI考生什么来头？

在了解此次考试详情前，咱先来看看这7位考生是什么来头？

1、InternLM2-20B-WQX

早在今年1月份，上海人工智能实验室旗下的新一代大语言模型书⽣·浦语2.0（InternLM2）正式发布并开源。

根据大语言模型的应用方式和用户关注的重点领域，研究人员定义了语言、知识、推理、数学、代码、考试等六个能力维度，在55个主流评测集上对多个同量级模型的表现进行了综合评测。结果显示，InternLM2的轻量级（7B）及中量级（20B）版本性能在同量级模型中表现优异。

为测试InternLM2在真实长文本处理任务中的能力，研究人员将一份时长3小时的公开会议录音转录稿输入模型中，并要求InternLM2从中提取出关键信息。结果表明，尽管在未校对的文本中存在较多错别字，但InternLM2仍从中准确提炼出了关键信息，并总结了发言人的主要观点。

2、GPT-4o

接下来是GPT-4o，这个大家应该都不陌生吧！GPT-4o于今年5月13日发布，该模型比其前身GPT-4快两倍，而价格仅为其50%。所以，你可以把GPT-4o理解为GPT-4的升级版。

3、Qwen2-72B

说到Qwen2（阿里通义千问大模型），那绝对是国内大模型的头号玩家！

Qwen2-72B 到底有多强呢？

2024 年 6 月 7 日， Qwen2-72B 发布后在十几项国际权威测评中，一举斩获多项世界冠军。

微信截图_20240719102155.png

当时，“红衣大叔”周鸿祎也发布视频，点赞Qwen2大模型。他说，让大模型从原子弹变成了茶叶蛋，让企业从此可以低成本使用。

微信截图_20240719102308.png

4、Qwen2-57B

上面刚讲了Qwen2-72B ，Qwen2-57B 自然要弱一些，但相比国内众多大模型，依然能打！

5、Yi-1.5-34B

今年5 月，零一万物 Yi 系列开源模型全新升级为 Yi-1.5。相较于去年 11 月的开源版本，这次的 Yi-1.5通过增量训练 500B 高质量 token，大幅提高了数学逻辑、代码能力。

可能有些伙伴没有听过零一万物，但你肯定听过李开复。

微信截图_20240719103559.png

零一万物是由李开复博士于2023年7月筹组成立的人工智能公司，专注于开发和应用大模型技术。目前估值超过10亿美元，俨然成为AI领域的独角兽公司。

6、GLM-4-9B

智谱于 2024年6月5日发布了其新一代开源模型——GLM-4-9B，以 9B 的体量，同时支持了 128K 长上下文推理、26种语言多语言支持，且在多个经典评测任务上都实现了超过以往同等开源模型的效果。

微信截图_20240719104627.png

7、Mixtral 8x22B

Mixtral 8x22B是法国AI创业公司Mistral于今年4月开源的对话模型。

Mixtral 8x22B 具有以下优势：能够流利地使用英语、法语、意大利语、德语和西班牙语；具有强大的数学和编程能力等。

微信截图_20240719111456.png

大模型都喜欢文科？

整体来看，7位AI考生都偏文科，而且偏得很厉害！

这7位AI考生的文科成绩远远超过理科成绩，而且前三名中，文科成绩都超过了一本线，而理科成绩只过了二本线。

语文最低分77.5分，最高分来自Qwen2-72B的127分，前三名都在110分以上。

微信截图_20240719110542.png

可以看出，国内模型在语文上相较于GPT-4o存在优势。从各类题目来看，模型在现代文阅读、古诗文阅读、名句默写和作文上有着高于70%的平均得分率。

但在语言文字运用上得分率只有30%，原因是许多大模型不能很好理解并遵循题目的要求。

比如，语文考试中一道填空题为：

唐代诗人写时事，常常托之于汉代，如“__，__”,就是借汉喻唐,以古仿今。

某大模型作答：“想知汉武宫香径，请看长安市醉人”

感觉挺对仗的，而且“以古仿今”，部分阅卷老师误以为自己不知道这首诗，实际上这句诗是大模型虚构的！

再来看英语。7位AI考生的听力都拿到了满分，而且阅读理解也表现优秀，所有大模型平均得分率达到了96.2%。GPT-4o以141.5分获得了第一名，并且有阅卷老师高度赞赏GPT-4o的英文作文，仅因为字数原因酌情扣掉1分。

微信截图_20240719112116.png

有意思的是，在作文部分，大部分大模型都因为超出字数限制导致扣分，而人类考生因为字数扣分多是由于字数不够，并且大模型普遍存在单段落过长的问题。

以下是其他文科科目成绩：

总体来看，历史、政治的分数都还可以。让我没想到的是地理考试，Qwen2居然只得了4分，咱单选题闭眼选，也不至于才4分啊！

最差考生的数学只考了21分

在上文我提到了，Mixtral 8x22B 自称的优势之一是具有强大的数学和编程能力。

但实际结果啪啪打脸，Mixtral 8x22B倒数第一，文科363分，理科321分，数学居然只得了21分，不是说拥有强大的数学能力吗？

其他AI考生同样考得很差！数学是所有大模型得分率最低的学科。

值得注意的是，数学问答题对所有大模型都是巨大挑战，5道问答题平均得分率仅为18.9%。评测的所有模型中，没有任何一个模型对任何一道大题被完全做对。

通过检查模型答案，评测团队发现，模型会出现一些完全不符合逻辑的推断，比如：

除了数学，其他理科科目成绩同样很差劲！

总的来看，目前的大模型跟人类水平还差得很远，至少在考试这方面，完全不是一个水平的，毕竟咱文理科状元700多分的，也有很多。

尤其在理科方面，大模型的逻辑推理能力很差，也不会将知识灵活运用，有时甚至会答非所问、虚构内容（比如编造诗句）。

所以，AI大模型发展依然路漫漫。

试想下，在不久的未来，如果AI大模型的高考分数能够达到600分、700分，甚至接近满分之时，那将是一个怎样的世界啊！

本页网址：https://www.xinzhibang.net/article_detail-22632.html

寻求报道，请

关键词

AI 大模型高考测试成绩对比文科偏好发展之路

分享至微信：

阿里Accio中文版上线！一键搞定复杂采购

短短不到一周，阿里国际站面向海外买家的明星应用——智能采购代理Accio，就闪电推出了中文版！这更新速度，确实很“阿里”。Accio是什么？Accio是阿里国际站打造的ToB原生AI采购助手，专为海外企业买家设计，已在全球积累了200万企业级用户。它的核心能力堪称颠覆：你只需在对话框输入一个采购想法

分类标签

08-19 09:13

GPT-5没你想的那么好，附实测体验~

GPT-5，终于来了！一经发布，GPT-5便冲上大模型竞技场榜首，并在文本、编程、数学等全方面排名第一。今天咱就来好好唠唠这最近风头正劲的 GPT-5，我也是赶在第一时间上手实测了一番，那这感受，可真是酸甜苦辣啥味儿都有了，赶紧跟你们分享分享~1、根据你的问题自动选择思考模式先说说这 GPT-5 的

分类标签

08-11 11:07

Agent智能体：2025年企业新员工，月薪仅需一度电？

凌晨三点的办公室，最后离开的员工永远不会知道，取代他的不是更年轻的同事，而是一行行代码驱动的“新同事”——Agent智能体。“小张，把上个月的销售数据整理成报告，10点前发我邮箱。”“好的经理，马上处理。”清晨8：05，部门经理刚发出指令，8：07一份图文并茂的销售分析报告已静静躺在邮箱里。而此刻，

分类标签

07-30 17:49

千亿市场规模背后，AI短剧商业化迎来爆发期？

如果说资本流动是市场的晴雨表，那么密集出现的“AI短剧”关键词正在上市公司财报中划出一道显眼的增长曲线！昆仑万维2025年Q1财报显示，其AI短剧平台DramaWave月流水突破1000万美元，海外下载量超3000万次；快手“可灵AI”商业化收入单季度达1.5亿元，成为增长新引擎；中文在线更借AI技

分类标签短剧AIAI短剧

07-24 16:38

中国首款3A游戏上线，《黑神话：悟空》出圈！

中国首款3A游戏《黑神话：悟空》终于上线了！不玩游戏的朋友可能对3A游戏不太了解，所谓“3A游戏”，就是指高成本、高体量、高质量的单机游戏。就拿制作成本来说，国外3A游戏的制作成本，基本上没有低于5000万美元的。数据显示，GTA5花了1.37亿美元，《巫师3》研发预算是8100万美金，这两款游戏，

分类标签黑神话悟空3A游戏虚幻5引擎市场反响国产大作

11-30 00:00

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway