Claude 3.5 Sonnet（新）：利用计算机控制能力开拓人工智能的未来

Rifx.Online
Programming , Technology , Generative AI
27 Oct, 2024

Anthropic于2024年10月22日发布了最新的AI模型Claude 3.5 Sonnet。此次发布引入了革命性的计算机控制能力，并在多个基准测试中实现了显著改进，为AI行业设定了新标准。

革命性的计算机控制：新前沿

Claude 3.5 Sonnet 的突出特点是其能够像人类一样与计算机进行交互。这一突破性的能力使得 AI 可以：

使用鼠标和键盘输入导航桌面界面
与各种应用程序和网页浏览器进行交互
执行复杂的多步骤任务
执行文件管理操作
自动化重复的工作流程

这一计算机控制功能目前处于公开测试阶段，代表了 AI 系统与数字界面交互方式的范式转变。尽管仍处于实验阶段，但早期测试显示出良好的结果，Claude 3.5 Sonnet 在仅截图任务的 OSWorld 基准测试中得分为 14.9% — 显著高于下一个最佳系统的 7.8%。

基准突破性能

升级后的模型在多个指标上表现出显著的改进：

编码和技术任务

在SWE-bench Verified上的性能为49%（较之前的33.4%有所提升）
在HumanEval编码任务中的得分为93.7%
在软件工程方面的表现优于专业编码系统

学术和推理能力

65% 的研究生级推理 (GPQA-Diamond)
78% 的本科级知识 (MMLU Pro)
78.3% 的数学问题解决能力 (MATH)

商业应用

69.2% 在零售领域任务上 (TAU-bench)
46% 在航空领域任务上
90.8% 在图表分析上的准确率
94.2% 在文档问答上的准确率

企业集成与可用性

Claude 3.5 Sonnet 可以通过多个平台访问：

Anthropic API
Amazon Bedrock
Google Cloud’s Vertex AI

包括 Asana、Canva、DoorDash 和 Replit 在内的主要公司已经开始在其工作流程中实施 Claude 3.5 Sonnet 的功能，特别是利用其计算机控制功能来处理复杂的自动化任务。

实际应用

软件开发

自动化代码测试和调试
智能IDE交互
代码审查与优化
文档生成

客户支持

高级聊天机器人功能
可视化数据解读
自动化工单解决
流程自动化

商业运营

文档处理与分析
从视觉源提取数据
工作流自动化
复杂问题解决

安全与责任

Anthropic 已实施强有力的安全措施用于计算机控制功能：

新分类器以识别潜在的误用
主动监控系统
限制对敏感操作的访问
定期安全评估

展望未来

虽然Claude 3.5 Sonnet在人工智能能力方面代表了重大进展，但重要的是要注意某些功能，特别是计算机控制，仍处于早期阶段。某些操作如滚动、拖动和缩放面临挑战，Anthropic鼓励开发者在探索这些新功能时，从低风险任务开始。

Claude 3.5 Sonnet的发布标志着人工智能发展的一个关键时刻，将先进的推理能力与实用的计算机控制功能相结合。随着技术的不断发展，我们可以期待看到更多创新的应用以及人工智能系统与我们的数字世界互动方式的改进。

本文基于Anthropic、AWS和各类技术合作伙伴的官方公告和文档。有关最新信息，请参考Anthropic的官方文档。

Tags :

结合chatgpt-o3-mini与perplexity Deep Research的3步提示：提升论文写作质量的终极指南

Rifx.Online
Natural Language Processing , AI Applications , AI Research
05 Mar, 2025

AI 研究报告和论文写作合并两个系统指令以获得两个模型的最佳效果 Perplexity AI 的 Deep Research 工具提供专家级的研究报告，而 OpenAI 的 ChatGPT-o3-mini-high 擅长推理。我发现你可以将它们结合起来生成令人难以置信的论文，这些论文比任何一个模型单独撰写的都要好。你只需要将这个一次性提示复制到 **

让 Excel 过时的 10 种 Ai 工具：实现数据分析自动化，节省手工作业时间

Rifx.Online
AI Applications , Data Science , Tech Trends
05 Mar, 2025

Non members click here作为一名软件开发人员，多年来的一个发现总是让我感到惊讶，那就是人们还在 Excel

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如，提示和输出你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务，而不仅仅是基本的网络搜索吗？对于那些不知道的人，ChatGPT 新的“搜索网络”功能提供实时信息。截至撰写此帖时，该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

掌握Ai代理：解密Google革命性白皮书的10个关键问题解答

Rifx.Online
AI Applications , Natural Language Processing , Machine Learning
05 Mar, 2025

10 个常见问题解答本文是我推出的一个名为“10 个常见问题解答”的新系列的一部分。在本系列中，我旨在通过回答关于该主题的十个最常见问题来分解复杂的概念。我的目标是使用简单的语言和相关的类比，使这些想法易于理解。图片来自 [Solen Feyissa](https://unsplash.com/@solenfeyissa?utm_source=medium&utm_medi

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

Rifx.Online
Technology , Generative AI , Data Science
16 Nov, 2024

在人工智能和科技这样一个动态的行业中，保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析，还是希望通过人工智能转变传统领域如法律，这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表，可以助力你的职业发展，并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

揭开真相！深度探悉DeepSeek AI的十大误区，您被误导了吗？

在AI军备竞赛中分辨事实与虚构 DeepSeek AI真的是它所宣传的游戏规则改变者，还是仅仅聪明的营销和战略炒作？👀 虽然一些人将其视为AI效率的革命性飞跃，但另一些人则认为它的成功建立在借用（甚至窃取的）创新和可疑的做法之上。传言称，DeepSeek的首席执行官在疫情期间像囤积卫生纸一样囤积Nvidia芯片——这只是冰山一角。从其声称的550万美元培训预算到使用Open

Claude 3.5 Sonnet（新）：利用计算机控制能力开拓人工智能的未来

革命性的计算机控制：新前沿

基准突破性能

编码和技术任务

学术和推理能力

商业应用

企业集成与可用性

实际应用

软件开发

客户支持

商业运营

安全与责任

展望未来

Tags :

Share :

Related Posts

结合chatgpt-o3-mini与perplexity Deep Research的3步提示：提升论文写作质量的终极指南

让 Excel 过时的 10 种 Ai 工具：实现数据分析自动化，节省手工作业时间

使用 ChatGPT 搜索网络功能的 10 种创意方法

掌握Ai代理：解密Google革命性白皮书的10个关键问题解答

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

揭开真相！深度探悉DeepSeek AI的十大误区，您被误导了吗？