就在刚刚AnthropicAI 官推发布消息,正式推出Claude 3,沉寂了很久的Anthropic 终于亮剑放了大招。
从指标结果来看,Claude 3 Opus各项评分全面超越GPT-4,但是实际效果如何,还需要后续的反馈,毕竟 Claude 懂得都懂,指令遵循和安全对齐的能力实在是有点矫枉过正了。
Claude3此次发布共包含3个版本:Claude 3 Opus, Claude 3 Sonnet, 和Claude 3 Haiku 其中Claude 3 Opus各项评分均超过了GPT-4。
Opus 和 Sonnet 现已可在 claude.ai 中使用,而 Claude API 现在也向159个国家/地区开放,可以直接在官网申请即可。
Claude 3 模型家族:
Opus 是目前Anthropic发布的最智能的模型,在人工智能系统的大多数常见评估基准上都优于同行,包括本科水平专家知识 (MMLU)、研究生水平专家推理 (GPQA)、基础数学 (GSM8K) 等。它在复杂任务上表现出接近人类水平的理解力和流畅性,根据下面的性能基准测试可以看出,各项指标都超过了GPT-4。
下面是 Claude 3 模型目前主流打模型在多个性能基准上的比较:
Claude 3 模型可以支持实时客户聊天、自动完成和数据提取任务,其中响应必须立即且实时。
Haiku 是目前速度最快且最具成本效益的型号。它可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文(约 10k token)。发布后,Anthropic表示会进一步提高性能。
对于绝大多数工作负载,Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智能水平更高。它擅长执行需要快速响应的任务,例如知识检索或销售自动化。Opus 的速度与 Claude 2 和 2.1 相似,但智能水平更高。
强大的多模态视觉能力
Claude 3 型号具有与其他领先型号相当的复杂视觉功能。他们可以处理各种视觉格式,包括照片、图表、图形和技术图表。目前开放给了企业客户多模态功能,其中一些客户高达 50% 的知识库以各种格式编码,例如 PDF、流程图或演示幻灯片。
指令遵循能力大幅度提升
以前的 Claude 模型经常做出不必要的拒绝,比如会以各种安全原因拒绝回答,这次Anthropic也做出了回应,说明是因为缺乏语境理解。Claude3则做出了大范围的改动,与前几代模型相比,Opus、Sonnet 和 Haiku 拒绝回答接近系统护栏的提示的可能性明显降低。如下所示,Claude 3 模型对请求表现出更细致的理解,能够识别真正的违反内容政策的问题,并且拒绝回答无害提示的频率要少得多。
200k 超长上下文支持
Claude 3 系列型号在发布时最初将提供 200K 上下文窗口。然而,所有三种模型都能够接受超过 100 万token币的输入,Anthropic会将其提供给需要增强处理能力的精选客户。
为了有效地处理长上下文提示,模型需要强大的回忆能力。“大海捞针”(NIAH)评估衡量模型从大量数据中准确回忆信息的能力。通过在每个提示中使用 30 个随机针/问题对之一并在不同的众包文档库上进行测试,增强了该基准的稳健性。Claude 3 Opus 不仅实现了近乎完美的召回率,超过 99% 的准确率,而且在某些情况下,它甚至通过识别“针”这句话似乎是人类人为插入到原文中来识别评估本身的局限性。
价格
最后我们看下价格,和GPT-4比起来,价格还是很有优势的
Claude 3 Opus
Claude 3 Sonnet
Claude 3 Haiku
GPT-4:
以上是关于Claude 3发布的最新信息,感谢关注。