解锁 Claude 3.7：混合模型和扩展思维如何革新 AI 编码解决方案

Rifx.Online
Large Language Models , AI Applications , AI Research
05 Mar, 2025

https://www.anthropic.com/news/claude-3-7-sonnet

Anthropic 确实凭借发布 Claude 3.7 Sonnet 在 AI 界掀起了波澜，这是他们迄今为止最先进的 AI 模型。这款开创性的“混合推理模型”将快速响应与深度分析相结合，为用户提供了前所未有的对 AI 思考过程的控制

主要特点

扩展思考模式：用户现在可以在 Claude 给出答案之前观察其推理过程。这种模式允许更详细的分析、规划和考虑多种观点
灵活的推理控制：API 用户可以指定 Claude 使用的“思考 tokens”的确切数量，最多 128K，从而在速度、成本和输出质量之间取得平衡
双重操作模式：Claude 3.7 Sonnet 在标准和扩展思考模式下运行，能够根据查询的复杂性在这两种模式之间切换
改进的性能：该模型在各种基准测试中优于其前代产品和竞争对手，尤其是在编码任务中

什么让 Claude 3.7 变得“混合”？

Claude 3.7 Sonnet 被称为“混合”，因为它具有在单个模型中以两种模式运行的独特能力：

标准模式，用于快速响应
扩展思考模式，用于深度推理

这种方法与其他 AI 模型不同，它将这两种功能集成到一个系统中，模仿人类的认知。主要特点包括：

最多 128K 个 tokens 用于扩展思考
通过 API 控制思考时间，以平衡速度、成本和准确性
在扩展模式下改进了复杂任务的性能
单个模型处理所有推理任务

该模型在编码方面表现出色，在理解复杂代码库、规划代码更改和处理全栈更新方面显示出显著的改进

Claude Code

Claude Code 是 Anthropic 新推出的命令行 AI 编码助手，与 Claude 3.7 Sonnet 一起发布，目前处于有限的研究预览阶段。主要特点包括：

代码搜索和理解
文件编辑和测试创建/执行
Git 操作（提交、推送）
命令行工具集成

Claude Code 旨在通过自动化通常需要大量手动操作的任务来简化开发。早期测试表明，它可以完成通常需要 45 分钟以上才能完成的复杂任务，只需几分钟即可完成。

该工具直接在终端中运行，无需手动添加文件即可理解项目上下文。它默认使用 Claude 3.7 Sonnet 模型，并保持对整个项目结构的感知。

Claude Code 已经展示了加速测试驱动开发、调试和大规模重构的潜力。它旨在与现有的 IDE 配合使用，许多 Anthropic 工程师将其与 VS Code 或 Cursor 等编辑器结合使用

基准测试

Claude 3.7 Sonnet 确实在各种基准测试中表现出令人印象深刻的性能，尤其是在软件工程和复杂任务执行方面。以下是主要亮点：

SWE-bench 验证：Claude 3.7 Sonnet 以 62.3% 的准确率得分实现了最佳性能，在使用自定义框架时，准确率提高到 70.3%。这明显优于 OpenAI 的 o1 (48.9%) 和 o3-mini (49.3%) 等其他模型
TAU-bench：Claude 3.7 Sonnet 在代理工具使用方面表现出色，在零售相关任务中得分为 81.2%，在航空相关任务中得分为 58.4%，超过了 OpenAI 的 o1 (分别为 73.5% 和 54.2%)
指令遵循：该模型在指令遵循方面获得了 93.2% 的得分，显示出在多步任务执行方面的改进能力
扩展思考模式：此功能使 Claude 3.7 Sonnet 能够在复杂的推理任务上表现更好。例如，在扩展思考模式下，它在研究生级推理 (GPQA Diamond) 上得分为 84.8%，而标准模式下为 68.0%
编码能力：与之前的版本相比，Claude 3.7 Sonnet 在调试、重构和全栈开发方面显示出显著的改进。

该模型能够通过单次尝试创建复杂应用程序（例如游戏）的能力，并且拥有数千行代码，这证明了其在软件开发方面的先进能力。研究人员注意到 Claude 3.7 具有预测需求和考虑新视角的独特能力，称其为“AI 中的新事物”。然而，Claude 3.7 击败了三个道馆馆主，甚至将它的对手命名为“WACLAUD”（就像 Wario，但适用于 Claude）。这种改进来自于 3.7 的扩展思考能力，这使其能够提前规划、记住目标并在策略失败时进行调整。正如 Anthropic 所指出的，这些是*“击败像素化道馆馆主的关键技能”。在实践中，Poke-Master Claude 在必须在中途更新其项目知识时，确实会经常*卡住。

虽然这些基准测试和演示令人印象深刻，但重要的是要注意，实际性能可能会有所不同，并且应该在特定的用例中评估该模型的功能。