Type something to search...
解锁 Claude 3.7:混合模型和扩展思维如何革新 AI 编码解决方案

解锁 Claude 3.7:混合模型和扩展思维如何革新 AI 编码解决方案

https://www.anthropic.com/news/claude-3-7-sonnet

Anthropic 确实凭借发布 Claude 3.7 Sonnet 在 AI 界掀起了波澜,这是他们迄今为止最先进的 AI 模型。这款开创性的“混合推理模型”将快速响应与深度分析相结合,为用户提供了前所未有的对 AI 思考过程的控制

主要特点

  1. 扩展思考模式:用户现在可以在 Claude 给出答案之前观察其推理过程。这种模式允许更详细的分析、规划和考虑多种观点
  2. 灵活的推理控制:API 用户可以指定 Claude 使用的“思考 tokens”的确切数量,最多 128K,从而在速度、成本和输出质量之间取得平衡
  3. 双重操作模式:Claude 3.7 Sonnet 在标准和扩展思考模式下运行,能够根据查询的复杂性在这两种模式之间切换
  4. 改进的性能:该模型在各种基准测试中优于其前代产品和竞争对手,尤其是在编码任务中

什么让 Claude 3.7 变得“混合”?

Claude 3.7 Sonnet 被称为“混合”,因为它具有在单个模型中以两种模式运行的独特能力:

  1. 标准模式,用于快速响应
  2. 扩展思考模式,用于深度推理

这种方法与其他 AI 模型不同,它将这两种功能集成到一个系统中,模仿人类的认知。主要特点包括:

  • 最多 128K 个 tokens 用于扩展思考
  • 通过 API 控制思考时间,以平衡速度、成本和准确性
  • 在扩展模式下改进了复杂任务的性能
  • 单个模型处理所有推理任务

该模型在编码方面表现出色,在理解复杂代码库、规划代码更改和处理全栈更新方面显示出显著的改进

Claude Code

Claude Code 是 Anthropic 新推出的命令行 AI 编码助手,与 Claude 3.7 Sonnet 一起发布,目前处于有限的研究预览阶段。主要特点包括:

  • 代码搜索和理解
  • 文件编辑和测试创建/执行
  • Git 操作(提交、推送)
  • 命令行工具集成

Claude Code 旨在通过自动化通常需要大量手动操作的任务来简化开发。早期测试表明,它可以完成通常需要 45 分钟以上才能完成的复杂任务,只需几分钟即可完成。

该工具直接在终端中运行,无需手动添加文件即可理解项目上下文。它默认使用 Claude 3.7 Sonnet 模型,并保持对整个项目结构的感知。

Claude Code 已经展示了加速测试驱动开发、调试和大规模重构的潜力。它旨在与现有的 IDE 配合使用,许多 Anthropic 工程师将其与 VS Code 或 Cursor 等编辑器结合使用

基准测试

Claude 3.7 Sonnet 确实在各种基准测试中表现出令人印象深刻的性能,尤其是在软件工程和复杂任务执行方面。以下是主要亮点:

  1. SWE-bench 验证:Claude 3.7 Sonnet 以 62.3% 的准确率得分实现了最佳性能,在使用自定义框架时,准确率提高到 70.3%。这明显优于 OpenAI 的 o1 (48.9%) 和 o3-mini (49.3%) 等其他模型
  2. TAU-bench:Claude 3.7 Sonnet 在代理工具使用方面表现出色,在零售相关任务中得分为 81.2%,在航空相关任务中得分为 58.4%,超过了 OpenAI 的 o1 (分别为 73.5% 和 54.2%)
  3. 指令遵循:该模型在指令遵循方面获得了 93.2% 的得分,显示出在多步任务执行方面的改进能力
  4. 扩展思考模式:此功能使 Claude 3.7 Sonnet 能够在复杂的推理任务上表现更好。例如,在扩展思考模式下,它在研究生级推理 (GPQA Diamond) 上得分为 84.8%,而标准模式下为 68.0%
  5. 编码能力:与之前的版本相比,Claude 3.7 Sonnet 在调试、重构和全栈开发方面显示出显著的改进。

该模型能够通过单次尝试创建复杂应用程序(例如游戏)的能力,并且拥有数千行代码,这证明了其在软件开发方面的先进能力。研究人员注意到 Claude 3.7 具有预测需求和考虑新视角的独特能力,称其为“AI 中的新事物”。然而,Claude 3.7 击败了三个道馆馆主,甚至将它的对手命名为“WACLAUD”(就像 Wario,但适用于 Claude)。这种改进来自于 3.7 的 扩展思考能力,这使其能够提前规划、记住目标并在策略失败时进行调整。正如 Anthropic 所指出的,这些是*“击败像素化道馆馆主的关键技能”。在实践中,Poke-Master Claude 在必须在中途更新其项目知识时,确实会经常*卡住。

虽然这些基准测试和演示令人印象深刻,但重要的是要注意,实际性能可能会有所不同,并且应该在特定的用例中评估该模型的功能。

未来

Anthropic 分享了他们对 Claude 的三阶段愿景的路线图…

  1. 2024 年:Claude 作为一个“助手”——增强个人生产力。
  2. 2025 年:Claude 作为一个“合作者”——独立执行专家级工作数小时。
  3. 2027 年:Claude 作为一个“先驱”——为复杂问题提供突破性解决方案

Claude 3.7 Sonnet 代表了“助手”和“先驱”阶段之间的关键过渡。其混合推理方法,将快速响应与深度分析相结合,标志着迈向更自主 AI 能力的重要一步

与 Claude 3.7 Sonnet 一起推出的 Claude Code 展示了 Anthropic 在自主 AI 开发方面的进展。此命令行工具可以搜索代码库、编辑文件、运行测试以及与 GitHub 交互,将其定位为软件工程中的积极合作者

影响和应用

Claude 3.7 Sonnet 增强的功能使其特别适用于:

  • 为 AI 代理和复杂工作流程提供支持
  • 利用其扩展的输出能力处理长篇内容生成
  • 提高编码效率并理解复杂代码库

该模型能够在快速响应和深度思考之间自主选择的能力使其有别于其他 AI 模型,可能彻底改变开发人员和企业与 AI 助手的交互方式

凭借这些进步,Anthropic 继续突破 AI 技术的界限,提供可以显著提高各行业生产力和解决问题能力的工具。

lm arena 中的示例聊天

我给模式“claude-3–7-sonnet-20250219”提供了一个玩具提示:编写代码以生成 streamlit 应用程序,它提示我“您想让我解释或分解这段代码吗?”在说“是”的时候

https://lmarena.ai/

page 2

https://lmarena.ai/

确实令人印象深刻的 SWE !!!

附录

https://www.anthropic.com/news/claude-3-7-sonnet

Related Posts

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

AI 研究报告和论文写作 合并两个系统指令以获得两个模型的最佳效果 Perplexity AI 的 Deep Research 工具提供专家级的研究报告,而 OpenAI 的 ChatGPT-o3-mini-high 擅长推理。我发现你可以将它们结合起来生成令人难以置信的论文,这些论文比任何一个模型单独撰写的都要好。你只需要将这个一次性提示复制到 **

阅读更多
让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

Non members click here作为一名软件开发人员,多年来的一个发现总是让我感到惊讶,那就是人们还在 Excel

阅读更多
使用 ChatGPT 搜索网络功能的 10 种创意方法

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如,提示和输出 你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务,而不仅仅是基本的网络搜索吗? 对于那些不知道的人,ChatGPT 新的“搜索网络”功能提供实时信息。 截至撰写此帖时,该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

阅读更多
掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

10 个常见问题解答 本文是我推出的一个名为“10 个常见问题解答”的新系列的一部分。在本系列中,我旨在通过回答关于该主题的十个最常见问题来分解复杂的概念。我的目标是使用简单的语言和相关的类比,使这些想法易于理解。 图片来自 [Solen Feyissa](https://unsplash.com/@solenfeyissa?utm_source=medium&utm_medi

阅读更多
在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和科技这样一个动态的行业中,保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析,还是希望通过人工智能转变传统领域如法律,这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表,可以助力你的职业发展,并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

阅读更多
揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

在AI军备竞赛中分辨事实与虚构 DeepSeek AI真的是它所宣传的游戏规则改变者,还是仅仅聪明的营销和战略炒作?👀 虽然一些人将其视为AI效率的革命性飞跃,但另一些人则认为它的成功建立在借用(甚至窃取的)创新和可疑的做法之上。传言称,DeepSeek的首席执行官在疫情期间像囤积卫生纸一样囤积Nvidia芯片——这只是冰山一角。 从其声称的550万美元培训预算到使用Open

阅读更多
Type something to search...