AI智商大突破，Claude 3.5 Sonnet 比肩领域专家，这还是人脑吗？

还记得那个号称要“构建可靠、可解释和可控的AI系统”的公司Anthropic吗？他们带着最新的AI模型Claude 3.5 Sonnet杀回来了，这次他们要做的是挑战人类智力极限。

之前关于 claude 3.5 Sonnet 的介绍

GPT-4凉了？Anthropic深夜放大招，Claude 3.5 sonnet吊打GPT-4o！关键还免费！

有多厉害？Claude 3.5 Sonnet在研究生水平推理测试GPQA中，直接拿下 67.2%的超高分，首次超越了该领域专业博士的平均水平，堪称AI发展史上的里程碑，要知道，之前很多科技巨头研发的AI模型都在GPQA测试中折戟沉沙，而Claude 3.5 Sonnet却一举突破了65%的得分大关，说他开了挂也不足为过吧？

等等，先别急着惊叹，GPQA测试到底是什么？简单来说，它就像是一场专为AI准备的研究生入学考试，专门测试AI模型在高难度科学问题上的推理和知识整合能力。

想象一下，一个AI模型要面对来自物理、化学、生物等多个领域的专业问题，而且很多问题都需要像研究生一样进行深度思考和推理，难度可想而知。

更夸张的是，GPQA测试还分为0-shot CoT和5-shot CoT两种模式。0-shot CoT就像“裸考”，AI模型没有任何参考答案，只能凭借自身实力作答；而5-shot CoT则相当于给了几道例题和答案，让AI模型能够更快地理解问题类型和答题思路。

即使在最考验实力的“裸考”模式下，Claude 3.5 Sonnet也取得了 53.6%的高分，直接秒杀了GPT-4o（53.6%）和GPT-4T（48.0%）等一众强劲对手。

为了让大家更直观地感受Claude 3.5 Sonnet的“恐怖”实力，我们可以参考一下不同群体在GPQA测试中的表现：

普通博士平均得分只有 34% ，也就是说，即使是拥有博士学位的人，面对这些高难度问题时，也只有一半的概率答对。
专门领域的博士平均得分也只有 65%，而Claude 3.5 Sonnet却轻松超越了这一水平。

如果将GPQA测试成绩与IQ值进行对比，Claude 3.5 Sonnet的表现更是令人咋舌：

GPQA=10%对应IQ≈120
GPQA=20%对应IQ≈126
GPQA=30%对应IQ≈132
GPQA=40%对应IQ≈138
GPQA=50%对应IQ≈144
GPQA=60%对应IQ≈150
GPQA=70%对应IQ≈156
GPQA=80%对应IQ≈162

也就是说，Claude 3.5 Sonnet的智商已经超过了150，妥妥地进入了高智商人群的行列！

全方位碾压！Claude 3.5 Sonnet的其他逆天能力

除了在GPQA测试中大放异彩，Claude 3.5 Sonnet在其他方面的表现也同样亮眼：

推理、编码和问答：Claude 3.5 Sonnet在多个行业标准基准测试中全面超越了前代模型Claude 3 Opus，并在研究生水平科学知识(GPQA)、一般推理(MMLU)和编码能力(HumanEval)等多个评估中创下了新的性能记录。
视觉能力：Claude 3.5 Sonnet在视觉数学推理(MathVista)、图表问答(ChartQA)、文档理解(DocVQA)和科学图表问答(AI2D)等五个标准视觉基准测试中均表现出色，轻松超越了之前的Claude 3模型。
代理编码：在一项内部代理编码评估中，Claude 3.5 Sonnet成功解决了64%的问题，而Claude 3 Opus的解决率仅为38%。这意味着Claude 3.5 Sonnet在理解开源代码库并实现拉取请求(如修复错误或新增功能)方面拥有更强大的能力。
“大海捞针”任务：在一项测试Claude 3.5 Sonnet在长达20万个上下文长度的检索能力的评估中，Claude 3.5 Sonnet在所有上下文长度的平均召回率达到了惊人的99.7%，即使在20万上下文长度下也能保持99.7%的超高召回率，而Claude 3 Opus在20万上下文长度下的召回率则下降到了98.3%。

人类：我不要面子的吗？

为了更全面地评估Claude 3.5 Sonnet的性能，Anthropic还进行了一系列人类反馈评估，通过直接比较Claude 3.5 Sonnet和之前Claude模型在不同任务中的表现，来判断人类更偏好哪种模型。

结果不出所料，在编写代码、文档处理、创意写作和视觉任务等核心能力方面，Claude 3.5 Sonnet获得了压倒性的胜利。更令人惊讶的是，就连法律、金融和哲学领域的专家也更偏爱Claude 3.5 Sonnet。

编码任务：Claude 3.5 Sonnet的赢率为60%，而Claude 3 Opus仅为50%。
法律领域：Claude 3.5 Sonnet的赢率高达82%，而Claude 3 Opus仅为50%。
金融领域：Claude 3.5 Sonnet的赢率为73%，而Claude 3 Opus仅为50%。
哲学领域：Claude 3.5 Sonnet的赢率为73%，而Claude 3 Opus仅为50%。

看到这里，你是不是已经对Claude 3.5 Sonnet的强大能力叹为观止了呢？这还只是冰山一角，想了解更多关于Claude 3.5 Sonnet的信息，可以查看[Claude 3.5 Sonnet 完整评测报告](https://www- cdn.anthropic.com/fed9cc193a14b84131812372d8d5857f8f304c52/Model_Card_Claude_3_Addendum.pdf)。

★
以上结果来自[Alan D. Thompson博士](https://lifearchitect.ai/iq-testing- ai/)运营的网站，该网站主要聚焦于人工智能在智商(IQ)测试中的表现，特别是与人类的对比研究。网站内容包括各种AI模型在不同IQ测试中的表现分析、重要事件和进展更新等。

网站详细记录了不同AI模型在各种智力测试中的成绩，包括GPT-3、GPT-4、PaLM 2等。

列出了从2020年至今，AI在智力测试中的关键进展。例如，GPT-4在创造力测试中的高分表现，以及GPT-3.5和GPT-4在各种智力评估中的优异成绩。

Claude 3.5 Sonnet的横空出世，无疑将AI技术推向了新的高度。未来，AI技术还将如何发展？让我们拭目以待！

以上就是我的分享，希望你能阅有所获，如果想加入社群可以扫下方的二维码添加我的微信，这里有最新的AI资讯和应用案例，互相交流共同提升，备注交流群，我会拉你入群（为了防止恶意广告营销，让大家有更好的交流氛围，现在进群需要9.9的门槛，希望大家理解），如果对加群不感兴趣也欢迎加我微信围观朋友圈，我会经常更新AI领域的好玩的工具。

另外还有一个好消息，我的免费星球通过试运营啦，现在可以加入了，限时免费，直接扫码即可，无需费用。我会分享有关AI+RPA自动化的流程和一些关于AI方面的咨询，欢迎感兴趣的小伙伴加入

AI智商首超人类，实测150+，博士专家集体沉默

AI智商大突破，Claude 3.5 Sonnet 比肩领域专家，这还是人脑吗？

全方位碾压！Claude 3.5 Sonnet的其他逆天能力

人类：我不要面子的吗？