在AI界,没有最强,只有更强。
今天,AI初创公司Anthropic推出了首款混合推理模型Claude 3.7 Sonnet,这是Claude系列迄今为止最智能的模型。Claude 3.7 Sonnet可以产生近乎即时的响应,也可以向用户提供扩展的、逐步的思考。API 用户还可以对模型的思考时间进行精细控制。
所谓混合推理,指的是Claude 3.7 Sonnet既能够以普通模型那样即时响应,也能以扩展模式进行逐步思考,这一过程可以实现更高质量的回答和完成更复杂的任务。直观一点说,Claude 3.7 Sonnet 集普通LLM和推理模型于一身,类似于DeepSeek V3和DeepSee R1的混合体。
Anthropic在一篇博文中指出,其开发Claude 3.7 Sonnet 的理念不同于市场上的其他推理模型。就像人类使用一个大脑同时进行快速反应和深度思考一样,Anthropic认为推理应该是前沿模型的一种综合能力,而不是完全独立的模型,这种统一的方法还能为用户带来更完美的体验。
到目前为止,OpenAI的o1推理模型和OpenAI的GPT-4o大语言模型,以及中国深度求索公司的DeepSee R1推理模型和DeepSeekv3大语言模型都是作为单独的产品提供的,但 Claude 3.7 Sonnet可以让开发人员在一个软件包中同时使用这两种模型。
Anthropic并不是唯一一家通过在单一模型中集成多项功能来简化产品的人工智能企业。本月早些时候,OpenAI联合创始人兼首席执行官Sam Altman在X(前Twitter)上表示,他的公司将在今年晚些时候发布备受期待的 GPT-5,并透露它将把公司的GPT系列和o系列模型统一到一个系统中。
Anthropic之前的旗舰机型Claude 3.5 Sonnet于2024年6月发布时,因其高水平的专业编码能力而备受赞誉,并被用于支持多个专为没有编码背景的人创建软件的应用程序,如 Replit。如今,Claude 3.7 Sonnet这一新模型则更进一步,集成了推理功能。这意味着该模型可以 “思考 ”如何使用类似于人类思维链的过程最有效地解决问题或处理查询。
根据Anthropic的披露,在扩展思考模式下,Claude 3.5 Sonnet回答问题前会进行自我反思,从而提高了它在数学、物理、指令跟踪、编码和许多其他任务中的表现。此外,在通过API使用Claude 3.7 Sonnet时,用户还可以控制思考的预算,可以告诉Claude思考的时间不超过N个tokens,N的任何值都可以达到128K tokens的输出上限。这样就可以在速度(和成本)与答案质量之间进行权衡。
Anthropic强调,在开发推理模型的过程中,减少了对数学和计算机科学竞赛问题的优化,而是将重点转移到更能反映企业如何实际使用 LLM 的现实任务上,这提升了新模型解决实际问题的能力。
如上图所示,Claude 3.7 Sonnet在SWE-bench Verified(评估人工智能模型解决真实世界软件问题的能力)上取得了优异的成绩。
如上图所示,Claude 3.7 Sonnet在指令遵循、一般推理、多模态能力和代理编码方面表现出色,在数学和科学方面的扩展思维能力显著提高。除了传统的基准测试外,新模型甚至在神奇宝贝游戏测试中超越了之前的所有模型。
据悉,Claude 3.7 Sonnet的API定价与Claude 3.5 Sonnet保持不变。开发者需要为每百万个输入token支付3美元,为每百万个输出token支付15美元。
除了Claude 3.7 Sonnet之外,Anthropic还发布了一款名为Claude Code的代理编码工具,称其可以充当 “主动协作者,可以搜索和读取代码、编辑文件、编写和运行测试、提交代码并将其推送到 GitHub,还可以使用命令行工具”。Anthropic表示,在内部,其团队已经使用该工具来协助调试软件和减少开发工作量。开发人员还可以将他们的 GitHub 代码库直接连接到Anthropic面向消费者的产品Claude.ai。
最近AI的发展令人目不暇接,“日新月异”都不够用了,“日新周异”还差不多。如果不是Claude 3.7 Sonnet的发布,大家的目光可能更多还在DeepSeek身上,本周是DeepSeek的开源周。Anthropic在混合推理方面的突破无疑为竞争激烈的AI赛道添了一把火,这把火能烧多久、烧多旺,更多还是要后续AI在实际场景的落地情况。