就在刚刚AnthropicAI 官推发布消息，正式推出Claude 3，沉寂了很久的Anthropic 终于亮剑放了大招。

从指标结果来看，Claude 3 Opus各项评分全面超越GPT-4，但是实际效果如何，还需要后续的反馈，毕竟 Claude 懂得都懂，指令遵循和安全对齐的能力实在是有点矫枉过正了。

Claude3此次发布共包含3个版本：Claude 3 Opus, Claude 3 Sonnet, 和Claude 3 Haiku 其中Claude 3 Opus各项评分均超过了GPT-4。

Opus 和 Sonnet 现已可在 claude.ai 中使用，而 Claude API 现在也向159个国家/地区开放，可以直接在官网申请即可。

Claude 3 模型家族：

Opus 是目前Anthropic发布的最智能的模型，在人工智能系统的大多数常见评估基准上都优于同行，包括本科水平专家知识 (MMLU)、研究生水平专家推理 (GPQA)、基础数学 (GSM8K) 等。它在复杂任务上表现出接近人类水平的理解力和流畅性，根据下面的性能基准测试可以看出，各项指标都超过了GPT-4。

下面是 Claude 3 模型目前主流打模型在多个性能基准上的比较：

Claude 3 模型可以支持实时客户聊天、自动完成和数据提取任务，其中响应必须立即且实时。

Haiku 是目前速度最快且最具成本效益的型号。它可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文（约 10k token）。发布后，Anthropic表示会进一步提高性能。

对于绝大多数工作负载，Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍，且智能水平更高。它擅长执行需要快速响应的任务，例如知识检索或销售自动化。Opus 的速度与 Claude 2 和 2.1 相似，但智能水平更高。

强大的多模态视觉能力

Claude 3 型号具有与其他领先型号相当的复杂视觉功能。他们可以处理各种视觉格式，包括照片、图表、图形和技术图表。目前开放给了企业客户多模态功能，其中一些客户高达 50% 的知识库以各种格式编码，例如 PDF、流程图或演示幻灯片。

指令遵循能力大幅度提升

以前的 Claude 模型经常做出不必要的拒绝，比如会以各种安全原因拒绝回答，这次Anthropic也做出了回应，说明是因为缺乏语境理解。Claude3则做出了大范围的改动，与前几代模型相比，Opus、Sonnet 和 Haiku 拒绝回答接近系统护栏的提示的可能性明显降低。如下所示，Claude 3 模型对请求表现出更细致的理解，能够识别真正的违反内容政策的问题，并且拒绝回答无害提示的频率要少得多。

200k 超长上下文支持

Claude 3 系列型号在发布时最初将提供 200K 上下文窗口。然而，所有三种模型都能够接受超过 100 万token币的输入，Anthropic会将其提供给需要增强处理能力的精选客户。

为了有效地处理长上下文提示，模型需要强大的回忆能力。“大海捞针”（NIAH）评估衡量模型从大量数据中准确回忆信息的能力。通过在每个提示中使用 30 个随机针/问题对之一并在不同的众包文档库上进行测试，增强了该基准的稳健性。Claude 3 Opus 不仅实现了近乎完美的召回率，超过 99% 的准确率，而且在某些情况下，它甚至通过识别“针”这句话似乎是人类人为插入到原文中来识别评估本身的局限性。

价格

最后我们看下价格，和GPT-4比起来，价格还是很有优势的

Claude 3 Opus

Claude 3 Sonnet

Claude 3 Haiku

GPT-4：

以上是关于Claude 3发布的最新信息，感谢关注。

重磅，Claude3 正式发布，支持多模态，Opus评分全面超过GPT-4

强大的多模态视觉能力

指令遵循能力大幅度提升

200k 超长上下文支持

价格