GPT-4o 高考模拟考竟获第二？！AI 考生能否挑战高考？

首个 AI 高考评测结果发布，GPT-4o 竟名列第二！

高考，这场关乎无数考生命运的考试，一直被视为中国最具权威的考试之一。它涵盖了各个学科，题型复杂多样，更重要的是，高考的试题在开考前都是绝对保密的，这使得高考成为了检验考生综合能力的终极“试金石”。而现在，这个挑战也摆在了人工智能的面前>

最近，上海人工智能实验室利用他们的“司南评测体系OpenCompass”，挑选了6个开源的AI模型，再加上一个大家都很熟悉的GPT-4o，来了一场别开生面的高考“语数外”模拟考。

为了保证考试的公平性，所有参加考试的开源模型都是在高考前就已经发布了的，绝对没有“偷看答案”的机会！ 而且，为了让成绩更贴近真实情况，评测团队还专门请来了经验丰富的高考阅卷老师来批改试卷。

那么，究竟有哪些AI模型参加了这场特殊的“高考”呢？

Mixtral 8x22B：来自法国AI创业公司Mistral，于2024年4月17日开源的对话模型。
Yi-1.5-34B：零一万物公司于2024年5月12日开源的Yi-1.5系列的“大块头”模型。
GLM-4-9B：智谱AI在2024年6月4日推出的最新一代预训练模型GLM-4系列的开源版本。
InternLM2-20B-WQX：上海人工智能实验室于2024年6月4日开源的“学霸”——书生·浦语2.0系列文曲星大语言模型。
Qwen2-57B：阿里巴巴于2024年6月6日开源的Qwen2系列的“话痨”——MoE对话模型。
Qwen2-72B：还是阿里巴巴，2024年6月6日开源的72B稠密模型。

铛铛铛！考试成绩揭晓

令人惊讶的是，Qwen2-72B以72.1%的总得分率获得了第一名，GPT-4o以70.5%的得分率紧随其后，而InternLM2-20B-WQX则以70.4%的得分率位列第三。看来，AI在语言学习方面确实有两把刷子，大部分模型在“语言”方面的表现都很出色，语文平均得分率高达67%，英语更是拿下了81%的平均得分率。

然而，俗话说得好，“数学是火眼金睛”。

这次考试的结果也证实了这一点，数学成为了所有AI模型的“滑铁卢”，平均得分率只有可怜的36%。看来，AI同学们的逻辑推理能力还有待提高啊。

阅卷老师们在批改完试卷后，也对这些特殊的“考生”的表现进行了一番点评：

语文老师： AI模型的现代文阅读理解能力普遍不错，但文言文就有点抓瞎了，看来还需要多背背古文才行。另外，AI写作文就像是在做问答题，虽然能抓住要点，但文采就差了点，完全没有人类学生写作文时常用的那些技巧。

数学老师： AI在解答主观题的时候思路比较混乱，步骤也让人摸不着头脑，甚至会出现解题过程错了，但结果却莫名其妙地对了的情况。看来，AI同学们的数学思维还需要好好训练一下。

英语老师： AI的英语水平总体来说还不错，但在完形填空这类题型上表现一般，可能是不太适应这种题型。另外，AI写英语作文也容易犯“话痨”的毛病，经常因为字数超限而被扣分，和显示学生的表现正好相反，毕竟真正的学生都是因为字数过少而扣分，经历过的兄弟们都懂....

有一说一，这次AI高考模拟考让我们看到了AI在学习能力上的巨大潜力，同时也揭示了AI在逻辑思维、创造力等方面与人类之间的差距，但是以后呢？以后的事谁知道....

想了解更多关于“GAOKAO-Eval 高考评估模型”的信息:

请访问GitHub：https://github.com/open-compass/GAOKAO-Eval

AI要上大学了，GPT-4o 高考模拟考竟获第二？其他各大模型表现是这样的....

GPT-4o 高考模拟考竟获第二？！AI 考生能否挑战高考？