AI智商首超人类,实测150+,博士专家集体沉默

AI智商大突破,Claude 3.5 Sonnet 比肩领域专家,这还是人脑吗?

还记得那个号称要“构建可靠、可解释和可控的AI系统”的公司Anthropic吗?他们带着最新的AI模型Claude 3.5 Sonnet杀回来了,这次他们要做的是挑战人类智力极限。

之前关于 claude 3.5 Sonnet 的介绍

GPT-4凉了?Anthropic深夜放大招,Claude 3.5 sonnet吊打GPT-4o!关键还免费!

有多厉害?Claude 3.5 Sonnet在研究生水平推理测试GPQA中,直接拿下 67.2%的超高分,首次超越了该领域专业博士的平均水平,堪称AI发展史上的里程碑,要知道,之前很多科技巨头研发的AI模型都在GPQA测试中折戟沉沙,而Claude 3.5 Sonnet却一举突破了65%的得分大关,说他开了挂也不足为过吧?

等等,先别急着惊叹,GPQA测试到底是什么?简单来说,它就像是一场专为AI准备的研究生入学考试,专门测试AI模型在高难度科学问题上的推理和知识整合能力。

想象一下,一个AI模型要面对来自物理、化学、生物等多个领域的专业问题,而且很多问题都需要像研究生一样进行深度思考和推理,难度可想而知。

更夸张的是,GPQA测试还分为0-shot CoT和5-shot CoT两种模式。0-shot CoT就像“裸考”,AI模型没有任何参考答案,只能凭借自身实力作答;而5-shot CoT则相当于给了几道例题和答案,让AI模型能够更快地理解问题类型和答题思路。

即使在最考验实力的“裸考”模式下,Claude 3.5 Sonnet也取得了 53.6%的高分,直接秒杀了GPT-4o(53.6%)和GPT-4T(48.0%)等一众强劲对手。

为了让大家更直观地感受Claude 3.5 Sonnet的“恐怖”实力,我们可以参考一下不同群体在GPQA测试中的表现:

  • 普通博士平均得分只有 34% ,也就是说,即使是拥有博士学位的人,面对这些高难度问题时,也只有一半的概率答对。
  • 专门领域的博士平均得分也只有 65%,而Claude 3.5 Sonnet却轻松超越了这一水平。

如果将GPQA测试成绩与IQ值进行对比,Claude 3.5 Sonnet的表现更是令人咋舌:

  • GPQA=10%对应IQ≈120
  • GPQA=20%对应IQ≈126
  • GPQA=30%对应IQ≈132
  • GPQA=40%对应IQ≈138
  • GPQA=50%对应IQ≈144
  • GPQA=60%对应IQ≈150
  • GPQA=70%对应IQ≈156
  • GPQA=80%对应IQ≈162

也就是说,Claude 3.5 Sonnet的智商已经超过了150,妥妥地进入了高智商人群的行列!

全方位碾压!Claude 3.5 Sonnet的其他逆天能力

除了在GPQA测试中大放异彩,Claude 3.5 Sonnet在其他方面的表现也同样亮眼:

  1. 推理、编码和问答:Claude 3.5 Sonnet在多个行业标准基准测试中全面超越了前代模型Claude 3 Opus,并在研究生水平科学知识(GPQA)、一般推理(MMLU)和编码能力(HumanEval)等多个评估中创下了新的性能记录。

  2. 视觉能力:Claude 3.5 Sonnet在视觉数学推理(MathVista)、图表问答(ChartQA)、文档理解(DocVQA)和科学图表问答(AI2D)等五个标准视觉基准测试中均表现出色,轻松超越了之前的Claude 3模型。

  3. 代理编码:在一项内部代理编码评估中,Claude 3.5 Sonnet成功解决了64%的问题,而Claude 3 Opus的解决率仅为38%。这意味着Claude 3.5 Sonnet在理解开源代码库并实现拉取请求(如修复错误或新增功能)方面拥有更强大的能力。

  4. “大海捞针”任务:在一项测试Claude 3.5 Sonnet在长达20万个上下文长度的检索能力的评估中,Claude 3.5 Sonnet在所有上下文长度的平均召回率达到了惊人的99.7%,即使在20万上下文长度下也能保持99.7%的超高召回率,而Claude 3 Opus在20万上下文长度下的召回率则下降到了98.3%。

人类:我不要面子的吗?

为了更全面地评估Claude 3.5 Sonnet的性能,Anthropic还进行了一系列人类反馈评估,通过直接比较Claude 3.5 Sonnet和之前Claude模型在不同任务中的表现,来判断人类更偏好哪种模型。

结果不出所料,在编写代码、文档处理、创意写作和视觉任务等核心能力方面,Claude 3.5 Sonnet获得了压倒性的胜利。更令人惊讶的是,就连法律、金融和哲学领域的专家也更偏爱Claude 3.5 Sonnet。

  • 编码任务:Claude 3.5 Sonnet的赢率为60%,而Claude 3 Opus仅为50%。
  • 法律领域:Claude 3.5 Sonnet的赢率高达82%,而Claude 3 Opus仅为50%。
  • 金融领域:Claude 3.5 Sonnet的赢率为73%,而Claude 3 Opus仅为50%。
  • 哲学领域:Claude 3.5 Sonnet的赢率为73%,而Claude 3 Opus仅为50%。

看到这里,你是不是已经对Claude 3.5 Sonnet的强大能力叹为观止了呢?这还只是冰山一角,想了解更多关于Claude 3.5 Sonnet的信息,可以查看[Claude 3.5 Sonnet 完整评测报告](https://www- cdn.anthropic.com/fed9cc193a14b84131812372d8d5857f8f304c52/Model_Card_Claude_3_Addendum.pdf)。

以上结果来自[Alan D. Thompson博士](https://lifearchitect.ai/iq-testing- ai/)运营的网站,该网站主要聚焦于人工智能在智商(IQ)测试中的表现,特别是与人类的对比研究。网站内容包括各种AI模型在不同IQ测试中的表现分析、重要事件和进展更新等。

  • 网站详细记录了不同AI模型在各种智力测试中的成绩,包括GPT-3、GPT-4、PaLM 2等。
  • 列出了从2020年至今,AI在智力测试中的关键进展。例如,GPT-4在创造力测试中的高分表现,以及GPT-3.5和GPT-4在各种智力评估中的优异成绩。

Claude 3.5 Sonnet的横空出世,无疑将AI技术推向了新的高度。未来,AI技术还将如何发展?让我们拭目以待!

以上就是我的分享,希望你能阅有所获,如果想加入社群可以扫下方的二维码添加我的微信,这里有最新的AI资讯和应用案例,互相交流共同提升,备注交流群,我会拉你入群(为了防止恶意广告营销,让大家有更好的交流氛围,现在进群需要9.9的门槛,希望大家理解),如果对加群不感兴趣也欢迎加我微信围观朋友圈,我会经常更新AI领域的好玩的工具。

另外还有一个好消息,我的免费星球通过试运营啦,现在可以加入了,限时免费,直接扫码即可,无需费用。我会分享有关AI+RPA自动化的流程和一些关于AI方面的咨询,欢迎感兴趣的小伙伴加入


请使用浏览器的分享功能分享到微信等