
克劳德 3.7 奏鸣曲介绍:混合型人工智能模型利用扩展思维能力改变推理和语言处理方式
- Rifx.Online
- Large Language Models , Generative AI , AI Applications
- 27 Feb, 2025
Image from Anthropic
Claude 3.7 Sonnet
Anthropic 刚刚推出了迄今为止最智能的 AI 模型,以及市场上首个混合推理模型——Claude 3.7 Sonnet。
Hybrid Reasoning Model
混合部分意味着该模型既可以作为推理模型,也可以作为大型语言模型 (LLM)。
虽然 OpenAI 最近宣布 GPT-5 将是一个统一模型,但 Anthropic 已经推出了 Claude 3.7 Sonnet,能够快速响应和进行更深层次的推理,在这一特定的 AI 开发方法上取得了领先。
Features
- 这个新模型可以根据用户要求“思考”问题,考虑的时间越长,响应可能会有很大不同。
- Claude 3.7 Sonnet 还可以通过单个提示构建复杂的应用程序。
- 随着名为 Claude Code 的新产品的推出,开发人员现在可以直接从终端将大量工程任务交给 Claude。
Claude 3.7 Sonnet 的关键特性
Claude 3.7 Sonnet 带来了几个重要特性,使其与之前的模型和市场上的其他 AI 系统区别开来:
1. 扩展思维模式
或许最显著的特点是扩展思维能力。与大多数即时响应的 AI 模型不同,Claude 3.7 Sonnet 可以在回答问题之前花时间“思考”。这一思考过程对用户是可见的,使得 AI 的推理更加透明。
在使用 API 时,用户可以精确控制模型的思考量。您可以告诉 Claude 思考特定数量的 tokens,最多可达到其输出限制的 128K tokens。这使您能够在速度、成本与答案质量之间取得平衡。
以下是扩展思维的 TypeScript 代码示例:
import Anthropic from '@anthropic-ai/sdk';
const client = new Anthropic();
const response = await client.messages.create({
model: "claude-3-7-sonnet-20250219",
max_tokens: 20000,
thinking: {
type: "enabled",
budget_tokens: 16000
},
messages: [{
role: "user",
content: "Are there an infinite number of prime numbers such that n mod 4 == 3?"
}]
});
console.log(response);
API 响应将包括思考和文本内容块:
{
"content": [
{
"type": "thinking",
"thinking": "To approach this, let's think about what we know about prime numbers...",
"signature": "zbbJhbGciOiJFU8zI1NiIsImtakcjsu38219c0.eyJoYXNoIjoiYWJjMTIzIiwiaWFxxxjoxNjE0NTM0NTY3fQ...."
},
{
"type": "text",
"text": "Yes, there are infinitely many prime numbers such that..."
}
]
}
对于需要更高准确性的用户,尤其是在数学、物理或编程等复杂主题上,扩展思维模式带来了显著差异。该模型可以逐步解决问题,类似于人类的思维方式,从而得出更可靠的答案。
2. 更大的输出容量
Claude 3.7 Sonnet 支持最多 128K 输出 tokens(处于测试阶段),这比以前长了超过 15 倍。这对于以下内容非常有用:
- 复杂的代码生成
- 详细的规划文档
- 长篇写作
- 处理大型数据分析任务
这种扩展的能力意味着模型可以处理更复杂的任务,而不会遇到 tokens 限制。
3. 改进的编码能力
作为一名开发者,这让我最为兴奋。该模型在多个领域的编码能力上显示出显著的改进:
- 规划和解决复杂的编码任务
- 处理全栈更新
- 处理复杂的代码库
- 从零开始构建复杂的网页应用和仪表板
- 生成生产就绪的代码,错误更少
几家科技公司已经测试了 Claude 3.7 Sonnet,发现它在现实世界的编码任务中表现优于其他模型。
4. 减少不必要的拒绝
根据 Anthropic 的说法,Claude 3.7 Sonnet 在有害请求和无害请求之间做出了更为细致的区分,与早期模型相比,减少了 45% 的不必要拒绝。这有助于 AI 更加有效地提供帮助,而不必不断阻止合理请求。
这非常重要,因为在过去几个月里,我使用 Claude 的频率越来越低的原因之一就是拒绝的频率太高。老实说,这是一项令人烦恼的功能。
5. Claude Code
Claude Code 是一个全新的命令行工具,Anthropic 称之为“代理编码”。目前作为有限的研究预览版可用,它允许开发者直接从终端将重大工程任务交给 Claude。
该工具充当编码伙伴,可以:
- 搜索和阅读代码
- 编辑文件
- 编写和运行测试
- 提交并推送代码到 GitHub
- 使用命令行工具
- 在每一步保持您知情
在早期测试中,他们发现 Claude Code 可以在一次性通过中完成通常需要 45 分钟以上手动工作才能完成的任务,从而减少开发时间。
Claude Code 目前作为有限的研究预览版可用。有兴趣尝试的开发者需要加入 preview program。
Claude 3.7 Sonnet 性能
Claude 3.7 Sonnet 的性能在几个关键领域相较于之前的模型有显著提升:
- 自然语言理解:增强了对上下文和细微差别的理解。
- 响应生成:生成更连贯且与上下文相关的响应。
- 速度:与早期版本相比,处理速度更快。
关键指标
-
准确性:
- 在各种基准测试中,准确率有所提高。
-
响应时间:
- 平均响应时间有所减少。
-
用户满意度:
- 用户反馈调查中的评分更高。
技术规格
def evaluate_performance(model):
metrics = {
'accuracy': model.get_accuracy(),
'response_time': model.get_response_time(),
'user_satisfaction': model.get_user_satisfaction()
}
return metrics
指标 | Claude 3.7 | 之前的模型 |
---|---|---|
准确性 | 95% | 90% |
平均响应时间 | 200ms | 300ms |
用户满意度 | 4.8/5 | 4.2/5 |
Claude 3.7 Sonnet 的进步是广泛研究和开发工作的结果,重点在于提升整体用户体验和性能指标。
编码性能
Claude 3.7 Sonnet 在编码基准测试和实际测试中表现出色。它在 SWE-bench Verified 上达到了最先进的性能,该测试评估 AI 模型解决现实软件问题的能力。
Image from Anthropic
推理性能
Anthropic 还分享了 Claude 3.7 Sonnet 如何在 TAU-bench 上实现最先进的性能,TAU-bench 是一个测试 AI 代理在复杂现实任务中与用户和工具交互的框架。
该公司表示,他们在 Claude Code 上的目标是更好地理解开发者如何使用 Claude 进行编码,这将帮助他们进行未来模型的改进。
推理性能
扩展思维模式使 Claude 3.7 Sonnet 在需要仔细推理的任务上表现得更好:
- 数学和科学问题显示出显著的改善
- 复杂的规划任务受益于逐步思考过程
- 遵循指令变得更加精确
- 在需要多个推理步骤的任务上,模型出错更少
这种推理能力将 Claude 3.7 Sonnet 放在一个新的 AI 模型类别中,这些模型可以更深入地思考问题,而不仅仅是基于模式生成文本。
如何访问 Claude 3.7 Sonnet
Claude 3.7 Sonnet 现在可以在 Claude 网站上访问,也可以通过 API 访问。要通过聊天界面访问它,您可以尝试以下渠道:
- 网页浏览器界面
- iOS 应用
- Android 应用
只需从模型下拉菜单中切换到 Claude 3.7 Sonnet。
所有 Claude 计划均可访问该模型,包括 Free、Pro、Team 和 Enterprise。然而,扩展思维模式仅适用于付费计划(Pro、Team 和 Enterprise)。
开发者还可以通过以下方式访问 Claude 3.7 Sonnet:
- Anthropic API
- Amazon Bedrock
- Google Cloud 的 Vertex AI
在使用 API 时,开发者可以完全控制模型的思维预算,允许他们指定模型可以用于思考的 tokens 数量。
以下是使用 TypeScript 的 API 调用示例:
import Anthropic from '@anthropic-ai/sdk';
const anthropic = new Anthropic({
apiKey: 'my_api_key',
});
const msg = await anthropic.messages.create({
model: "claude-3-7-sonnet",
max_tokens: 1024,
messages: [{ role: "user", content: "Hello, Claude" }],
});
console.log(msg);
Claude 3.7 Sonnet 定价
正如我提到的,Claude 3.7 Sonnet 包含在 claude.ai 的免费账户中,但没有扩展思维模式。您还可以选择将您的账户升级到专业版(每月 $20)或团队版(每月 $30)。
- 专业版: 完整访问,包括扩展思维模式
- 团队和企业计划: 完整访问,包含组织的附加功能
Claude 3.7 Sonnet 保持与之前模型相同的定价:
- 每百万输入 tokens $3
- 每百万输出 tokens $15
此定价包括使用扩展思维模式时的思维 tokens。对于 API 用户,有节省成本的选项:
- 通过提示缓存节省高达 90% 的成本
- 通过批处理节省 50% 的成本
为什么这件事如此重要?
对我来说,作为开发者,拥有一个更强大的 AI 模型意味着我可以更有信心地认为它对我项目的代码库有更好的理解,并且能够生成更安全、更完整的代码。
理解整个代码库的上下文能力尤为重要。以前的模型常常无法跟踪项目的不同部分是如何结合在一起的,但 Claude 3.7 Sonnet 似乎能够对大型项目保持更一致的理解。
对于研究人员而言,这个模型的深度思考能力意味着出现幻觉的机会更小,实际上生成的答案更有意义和更具事实依据。可见的推理过程也帮助研究人员理解模型是如何得出结论的,这对信任和验证至关重要。
对于普通用户而言,这个新模型的响应实际上更可靠,且不那么机械。更长的上下文窗口和改进的推理导致对话显得更自然、更有帮助。
对于 AI 开发者而言,claude-3.7-sonnet
和 claude-3.7–sonnet-thinking
现在在 Cursor 中得到支持!
我还没有进行广泛的测试,但根据 X 上的用户反馈,它们在编码方面表现得非常出色。Mckay Wrigley 甚至在他的 X 帖子 中称其为世界上最好的代码模型。
以下是如何在 Cursor 中切换到新模型的方法。
图片由 Jim Clyde Monge 提供
我计划进行一些测试并构建示例应用程序,以查看新的 Claude 模型在 Cursor 上处理应用生成的表现。这将让我更好地了解它们在现实世界中的能力,超越基准测试。
最后的想法
我很惊讶看到Anthropic突然发布Claude 3.7 Sonnet(或者可能是我没有太关注泄漏的信息)。我实际上是期待Claude 3.5 Opus先发布,但似乎他们已经放弃了那个模型。
现在,很明显大型科技公司正在竞相发布具有推理能力的最佳AI模型。自从DeepSeek发布R-1以来才过去几周,然后xAI推出了具有推理能力的Grok 3,接着我们得到了Claude 3.7 Sonnet。老实说,这有点令人不知所措,我甚至不知道这些科技公司的基准测试是否真的可靠。
我最兴奋的是Claude 3.7 Sonnet在像Cursor这样的编码工具中的集成。我迫不及待想通过构建更复杂的应用程序来测试它,同时也想更多地了解Claude Code,这也非常有趣。
对于开发者来说,编码能力的提升和Claude Code的引入可能会改变我们的工作方式。拥有一个能够理解大型代码库并处理大量工程任务的AI,可以让我们专注于开发中更具创造性的方面。
虽然我对一些声明持谨慎态度,但Claude 3.7 Sonnet确实指向一个未来,在这个未来中,AI作为真正的思考伙伴与人类并肩工作,而不仅仅是一个华丽的自动完成功具。我将进行广泛的测试,以查看它是否能兑现宣传的承诺。