GPT-4o 高考模拟考竟获第二?!AI 考生能否挑战高考?
首个 AI 高考评测结果发布,GPT-4o 竟名列第二!
高考,这场关乎无数考生命运的考试,一直被视为中国最具权威的考试之一。它涵盖了各个学科,题型复杂多样,更重要的是,高考的试题在开考前都是绝对保密的,这使得高考成为了检验考生综合能力的终极“试金石”。 而现在,这个挑战也摆在了人工智能的面前>
最近,上海人工智能实验室利用他们的“司南评测体系OpenCompass”,挑选了6个开源的AI模型,再加上一个大家都很熟悉的GPT-4o,来了一场别开生面的高考“语数外”模拟考。
为了保证考试的公平性,所有参加考试的开源模型都是在高考前就已经发布了的,绝对没有“偷看答案”的机会! 而且,为了让成绩更贴近真实情况, 评测团队还专门请来了经验丰富的高考阅卷老师来批改试卷。
那么,究竟有哪些AI模型参加了这场特殊的“高考”呢?
Mixtral 8x22B:来自法国AI创业公司Mistral,于2024年4月17日开源的对话模型。 Yi-1.5-34B:零一万物公司于2024年5月12日开源的Yi-1.5系列的“大块头”模型。 GLM-4-9B:智谱AI在2024年6月4日推出的最新一代预训练模型GLM-4系列的开源版本。 InternLM2-20B-WQX:上海人工智能实验室于2024年6月4日开源的“学霸”——书生·浦语2.0系列文曲星大语言模型。 Qwen2-57B:阿里巴巴于2024年6月6日开源的Qwen2系列的“话痨”——MoE对话模型。 Qwen2-72B:还是阿里巴巴,2024年6月6日开源的72B稠密模型。
铛铛铛!考试成绩揭晓
令人惊讶的是,Qwen2-72B以72.1%的总得分率获得了第一名,GPT-4o以70.5%的得分率紧随其后,而InternLM2-20B-WQX则以70.4%的得分率位列第三。看来,AI在语言学习方面确实有两把刷子,大部分模型在“语言”方面的表现都很出色,语文平均得分率高达67%,英语更是拿下了81%的平均得分率。
然而,俗话说得好,“数学是火眼金睛”。



这次考试的结果也证实了这一点,数学成为了所有AI模型的“滑铁卢”,平均得分率只有可怜的36%。看来,AI同学们的逻辑推理能力还有待提高啊。
阅卷老师们在批改完试卷后,也对这些特殊的“考生”的表现进行了一番点评:
语文老师: AI模型的现代文阅读理解能力普遍不错,但文言文就有点抓瞎了,看来还需要多背背古文才行。另外,AI写作文就像是在做问答题,虽然能抓住要点,但文采就差了点,完全没有人类学生写作文时常用的那些技巧。
数学老师: AI在解答主观题的时候思路比较混乱,步骤也让人摸不着头脑,甚至会出现解题过程错了,但结果却莫名其妙地对了的情况。看来,AI同学们的数学思维还需要好好训练一下。
英语老师: AI的英语水平总体来说还不错,但在完形填空这类题型上表现一般,可能是不太适应这种题型。另外,AI写英语作文也容易犯“话痨”的毛病,经常因为字数超限而被扣分,和显示学生的表现正好相反,毕竟真正的学生都是因为字数过少而扣分,经历过的兄弟们都懂....
有一说一,这次AI高考模拟考让我们看到了AI在学习能力上的巨大潜力,同时也揭示了AI在逻辑思维、创造力等方面与人类之间的差距,但是以后呢?以后的事谁知道....
想了解更多关于“GAOKAO-Eval 高考评估模型”的信息:
请访问GitHub:https://github.com/open-compass/GAOKAO-Eval