Evolution of AI Agents in 2025: Analysis of Key Technological Advances and Future Challenges

Rifx.Online
Machine Learning , AI Research , AI Applications
08 Mar, 2025

图片来源：

AI 系统正在获得在世界上独立行动的能力。在过去的一年里，我们看到了推理、计算机控制和内存系统的重大进步，从而促成了这一转变。本分析考察了这些发展的技术基础、不同领域中 AI 智能体的当前状态，以及使其可靠所需的基础设施。我们将探讨推动这一转变的进步以及 remaining challenges。

第 1 部分：重大转变——从模型到智能体

OpenAI 模型 ARC-AGI 基准测试分数演变

2024 年，我们看到了 AI 智能体关键能力的出现。OpenAI 的 o1 和 o3 模型表明机器可以分解复杂任务。Claude 3.5 表明它可以像人类一样使用计算机——控制界面和运行软件。这些进步，加上内存和学习系统的改进，正在推动 AI 摆脱简单的聊天界面，走向 autonomous systems。

AI 智能体已经在专业领域中应用——处理 legal analysis、科学研究和技术支持。虽然它们在具有明确规则的结构化环境中表现出色，但在不可预测的情况和开放性问题上却举步维艰。当任务需要处理异常情况或适应不断变化的条件时，成功率会显著下降。

该领域正在从会话式 AI 发展到能够独立推理和行动的系统。每一步都需要更多的计算能力，并带来新的技术挑战。本文考察了 AI 智能体的工作方式、它们当前的能力以及实现可靠功能所需的基础设施。

什么是 AI 智能体？

AI 智能体是一个通过问题进行推理、创建计划并使用工具执行计划的系统。与仅响应提示的传统 AI 模型不同，智能体表现出：

自主性：独立追求目标和做出决定的能力
工具使用：与软件、API 和外部系统的直接交互
记忆：维护上下文并从过去的经验中学习
规划：将复杂任务分解为可操作的步骤
适应性：从经验中学习以改进决策和绩效

了解从被动响应者到自主智能体的演变，对于把握即将到来的机遇和挑战至关重要。让我们考察一下促成这一转变的关键发展。

基础：2024 年的突破

OpenAI o3 在 ARC-AGI 基准测试中取得突破性高分

2024 年的三个关键发展为自主 AI 智能体奠定了基础：

首先，OpenAI 的 o 系列模型展示了推理方面的进步。O3 在 ARC-AGI 基准测试中达到了 87% 的准确率，该测试考察了类似人类的解决问题的能力。这些模型通过生成多个并行解决方案，并使用共识机制来选择最可靠的答案来实现这一点。这种系统地处理新问题并通过多种推理路径得出正确解决方案的能力，为自主行动建立了基本能力。

其次，AI 模型获得了视觉能力和基本的计算机控制能力。视觉已成为主要模型的标准配置，使它们能够处理屏幕截图并理解界面。Claude 3.5 showed 它可以控制计算机——移动光标、点击元素和执行简单命令。虽然仍低于人类的性能，并且仅限于基本操作，但这些进步表明 AI 系统如何与标准软件界面交互。

第三，模型架构的进步改变了 AI 系统处理内存和上下文的方式。新的方法超越了简单的注意力机制，转向了复杂的内存管理——将 extended context windows 与 explicit working memory 和 efficient knowledge caching 结合起来。这种演变意味着智能体可以在更长、更复杂的交互中保持连贯的理解。

现在：智能体出现

如今，这些能力正在创造实际成果。正如 Reid Hoffman noted 所说，我们正在看到专门的 AI 智能体的出现，它们扩展了人类在特定领域的能力。早期的应用很有前景：

Harvey 正在构建法律智能体，这些智能体可以与律师协作处理 S-1 文件等复杂任务，使用 o1 的高级推理来分解和规划多阶段法律工作
像 OpenHands 这样的开发平台使智能体能够像人类开发人员一样编写代码、与命令行交互以及浏览网页
Research teams 正在使用多智能体系统来设计和验证科学实验，其中有专门的智能体用于假设生成、实验设计和结果分析
Healthcare teams 正在部署 AI 智能体作为医疗抄写员，从患者对话中起草临床笔记
航空公司正在部署 AI 智能体，这些智能体处理复杂的预订更改，协调航班可用性、票价规则和退款
采购团队正在使用 agents to negotiate 供应商协议

最近的 Sierra research 表明这些系统正在迅速成熟。他们的智能体现在可以进行自然的对话，同时处理复杂的业务规则和多个后端系统——标志着从实验原型到实际部署的转变。

关键问题

在我们探索这场变革的过程中，会浮现出三个关键问题：

什么时候自主智能体比更简单的 AI 工具表现更好？
什么技术和组织基础设施能够支持智能体的成功部署？
我们如何确保智能体运营的可靠性、安全性和成本效益？

本文的其余部分将探讨：

智能体当前的能力范围
不同领域的实际转型
取得成功的必要技术基础设施
当前的局限性和挑战
未来的发展道路

理解这些方面至关重要，因为智能体技术改变了我们处理复杂任务和决策的方法。让我们来研究实现这些功能的构建模块。

第二部分：理解智能体范围

图片来自 Google Deepmind

当前的 AI 智能体在能力和自主程度方面有所不同。某些任务只需要基本的工具使用和响应生成，而另一些任务则需要复杂的推理和自主决策。了解这些能力水平有助于确定何时使用更简单、更可预测的系统，而不是完全自主的智能体。

构建模块

三种核心能力将 AI 智能体与更简单的 AI 工具区分开来：

推理和规划

将复杂任务分解为多个步骤
系统地探索多种解决方案路径
根据结果调整策略
从成功和失败中学习

工具使用

与软件界面的直接交互
API 和函数调用
代码生成和执行
网页浏览和数据访问

记忆和学习

在交互过程中保持上下文
构建可重复使用的技能
从过去的经验中学习
随着时间的推移提高性能

智能体范围

AI 智能体范围

从简单的 AI 工具到完整的智能体的演进遵循一个范围，其复杂性和能力不断提高：

1. 单一工具系统

使用单个语言模型进行基本工具使用
简单、明确的交互
仅限于特定的 API 或功能
示例：基于搜索的聊天应用程序

2. 多工具编排

单个模型中的多个工具
结构化的 API 交互
定义的工作流程和模式
示例：带有插件的 ChatGPT

3. 组合系统

多个模型协同工作
带有循环的迭代处理
更复杂的编排
示例：多智能体开发系统

4. 通用访问智能体

直接系统访问（屏幕、键盘、CLI）
超越结构化 API
开放式任务处理
示例：计算机控制智能体

并非每个问题都需要最高级别的智能体。更简单的解决方案（如工具使用模型或编排系统）通常更合适且更具成本效益。

上下文和控制的作用

一个关键的考虑因素是能力和控制之间的平衡。当我们朝着更自主的智能体迈进时，几个因素变得很重要：

安全性和治理

访问控制和权限
活动监控和日志记录
资源使用限制
安全约束

可靠性和信任

操作验证
决策透明度
错误处理和恢复
性能监控

成本和资源管理

计算资源优化
API 使用效率
存储和内存管理

了解您在此范围内的需求对于有效部署至关重要。并非每个任务都需要一个完全自主的智能体——有时使用简单工具的系统更合适且更具成本效益。

第三部分：现实世界的转型

AI 智能体的真正潜力在于它们的实际应用。让我们来研究一下不同行业如何利用智能体的能力来解决实际问题。

软件开发

图片来自 Google Deepmind

从简单的代码补全到自主开发的演进展示了 AI 智能体不断扩展的能力。尽管 GitHub Copilot 在 2021 年引入了实时代码建议，但如今的智能体（如 Devin）可以处理端到端的开发任务，从环境设置到部署。

MetaGPT（一篇多智能体框架论文）展示了专业智能体如何有效地协作：

产品经理定义需求
架构师设计系统结构
开发人员实现解决方案
质量保证智能体验证结果

AI 智能体可能没有人类的局限性，但这引发了关于我们如何构建过去 50-60 年来围绕人类能力设计的开发活动的基本问题。虽然它们擅长原型设计和自动化测试等任务，但真正的机会在于重新构想软件开发本身，而不是仅仅加快现有流程的速度。

这种转变已经影响了招聘模式。 Salesforce 宣布，由于其 AI 智能体技术提高了 30% 的生产力，它将在 2025 年不再招聘软件工程师。Meta 首席执行官马克·扎克伯格预计 AI 将在 2025 年达到中级软件工程师的能力，能够为应用程序和 AI 系统生成生产代码。

最近对 Devin 的实际测试揭示了开发智能体的局限性：虽然它们擅长于 API 集成等孤立任务，但在复杂的开发工作中却步履维艰。 Devin 在 20 个端到端任务中仅取得了 3 次成功。使用 Cursor 等工具的更简单的、开发人员驱动的工作流程避免了与自主智能体相关的许多问题。

客户服务

图片来源：Google Deepmind

从简单的聊天机器人到复杂的服务代理的演变，标志着代理部署的明确成功。Sierra 的 research 表明，现代代理可以处理以前需要多个人工代理处理的复杂任务——从航班改签到多步骤退款——同时保持自然的对话。

这些系统的关键能力包括：

协调多个后端系统（预订、支付、库存）
在复杂的、多轮对话中保持上下文
应用业务规则，同时记录以符合法规
处理常规案例，解决时间缩短 40–60%

在政策例外情况和需要同情心的情境方面，仍然存在重大挑战。一些 implementations 通过将代理限制在批准的知识来源并实施明确的升级路径来解决这个问题。这种混合方法（代理处理常规案例，并将复杂情况升级给人工人员）已被证明在生产环境中最为有效。

销售与市场营销

图片来源：Google Deepmind

销售和市场营销代理现在处理结构化的工作流程，如潜在客户资格审查、会议安排和营销活动分析。这些系统在 CRM 平台和沟通渠道之间进行协调，同时遵循可配置的业务规则。例如，Salesforce’s Agentforce 可以处理客户互动、维护对话上下文，并在需要时将复杂案例路由给人工代理。

最近的 benchmarks 表明，代理在两个领域取得了可衡量的成果：

1. 销售开发

自主潜在客户资格审查和推广——例如，11x-’s Alice 代理识别潜在客户并安排会议，同时适应互动
多模态沟通处理——由 11x’s Mike 等代理演示，该代理处理 28 种语言的语音和文本交互
与 CRM 平台和业务工具的系统编排，在可配置的参数下运行，以确保合规性

2. 市场营销运营

内容生成和优化
绩效跟踪
数据分析和报告

这些系统的关键能力：

理解并响应跨渠道的复杂客户查询
协调多个业务系统和数据源
在扩展的交互中保持对话上下文
在需要时升级到人工代理
在可配置的参数内运行，以符合业务目标和合规性标准

这些解决方案的集成和采用面临几个挑战：

平衡自动化与人际关系建立
确保随着规模扩大而保持一致的质量
在自动化交互中保持个性化

在销售和市场营销中取得成功需要一种平衡的方法，即代理处理常规交互和数据驱动的任务，而人工团队则专注于建立关系和复杂的决策。

法律服务

图片来源：Google Deepmind

法律代理现在在严格的监管框架内处理复杂的文件。Harvey’s 系统可以将 S-1 申报等为期数月的项目分解为结构化步骤，与多个利益相关者协调，并在不同司法管辖区内保持合规性。然而，这些系统仍然需要仔细的人工监督，特别是对于需要主观判断或依赖上下文推理的任务。

关键的区别特征：

处理和分析数千份法律文件，同时保持文件之间的一致性
将 S-1 申报等复杂任务分解为具有明确检查点的结构化工作流程
跟踪不同司法管辖区的监管要求
维护所有修改和推理的详细审计跟踪

验证和责任仍然是部署中的重大障碍。所有代理输出都需要人工审查，并且在 AI 辅助的法律工作中，责任尚未解决。虽然代理在文档处理和研究方面表现出色，但战略性法律决策仍然掌握在人类手中。

法律 AI 代理的未来可能在于人类律师和 AI 系统之间加强协作，代理处理常规文档处理和分析，而律师则专注于战略、谈判和最终验证。

金融

图片来源：Google Deepmind

金融服务已成为 agent technology 的早期试验场，其应用范围从市场分析到自动化交易。

主要用例：

1. 市场分析与研究

分析公司报告、新闻和市场数据——正如 Decagon 所展示的那样，它通过详细的市场趋势分析协助分析师评估投资机会
根据多模态数据分析生成投资见解和建议
Processing 各种数据源，包括市场数据、SEC 文件和新闻

2. 交易与投资

根据定义的策略执行交易
管理投资组合
最近的 benchmarks 表明，专有模型实现了高达 95% 的买入并持有回报，而开源替代方案则达到了 80%

3. 风险管理

监控投资组合风险指标
生成合规报告
在人工监督下保持绩效一致性

目前的限制包括：

单一资产焦点（大多数系统难以进行复杂的投资组合管理）
在不同市场条件下的可靠性各不相同
维持长期战略的挑战
实时处理和全球市场适应的挑战

早期结果很有希望，但金融应用需要仔细的风险管理和监管合规性。大多数组织从人工监督下的狭窄范围的用例开始，专注于单一资产交易，然后转向复杂的投资组合管理。

研究与科学

图片来自 Google Deepmind

科学研究中的 AI 代理可以加速发现，同时保持严谨的方法。最近的论文展示了专业代理如何在整个研究生命周期中协作：

文献代理分析数千篇论文，以识别模式和差距
假设代理基于现有知识提出可测试的理论
实验代理设计方案并预测结果
分析代理解释结果并提出改进建议

这种多代理方法在化学领域取得了有希望的结果，代理帮助识别了新型催化剂和反应途径。随着 Google 最近宣布 Gemini Deep Research，它编译和分析基于网络的研究，我们看到这些能力如何扩展到专业领域之外，以支持更广泛的研究任务。

围绕验证、可重复性和自动化质量评估存在重大挑战——代理输出在专家评审中的得分低于人类工作。虽然代理可以通过处理常规任务来加速发现，但人类科学家对于创造性方向和验证结果仍然至关重要。成功需要将代理能力与现有研究方法进行仔细整合，同时保持科学严谨性。

新兴模式

虽然代理的实施因行业而异，但出现了三个共同主题：

改进的记忆

在更长的交互中保持更丰富的上下文
保留相关信息以改进决策

复杂的规划

将任务分解为逻辑步骤以供执行
协调多步骤工作流程或业务流程

直接的工具集成

与外部 API 和软件环境交互
处理专业任务（代码生成、数据分析等）

虽然 AI 代理的潜力巨大，但大多数行业仍处于采用的实验阶段。组织通常从已建立的方法（如检索增强生成 (RAG)）开始，然后转向高级代理实现。

一个关键的挑战是确定代理相对于传统 AI 方法提供可衡量优势的场景。虽然代理提供了扩展的功能，但它们也通过所需的安全控制、集成和基础设施开销引入了复杂性。

一些任务需要更简单的工具，而另一些任务则受益于多步骤规划、高级记忆或专业协作。有效的实施需要评估代理能力何时证明其在开发工作和运营开销方面的复杂性是合理的。

第 4 部分：引擎室

图片来自 Google Deepmind

前面讨论过的构建块——规划、工具使用和记忆——需要在生产环境中有效运行的复杂基础设施。虽然技术正在发展，但几个关键组件已成为成功代理部署的必备条件。

开发框架和架构

图片来自 awesome-ai-agents by e2b.dev

代理开发框架生态系统已经成熟，出现了几个关键参与者：

来自微软的 AutoGen 擅长灵活的工具集成和多代理编排
CrewAI 专注于基于角色的协作和团队模拟
LangGraph 提供了强大的工作流程定义和状态管理
Llamaindex 提供了高级知识集成和检索模式

虽然这些框架有所不同，但成功的代理通常需要三个核心架构组件：

记忆系统：维护上下文并从过去的交互中学习的能力
规划系统：将复杂的任务分解为逻辑步骤，同时验证每个阶段
工具集成：通过函数调用和 API 接口访问专业功能

虽然这些框架提供了坚实的基础，但生产部署通常需要大量的定制，以处理高规模的工作负载、安全需求以及与现有系统的集成。

规划与执行

AI 代理规划和执行流程

处理复杂的任务需要高级规划能力，通常包括：

计划生成：将任务分解为可管理的步骤
计划验证：在执行前评估计划，以避免浪费计算资源
执行监控：跟踪进度并处理故障
反思：评估结果并调整策略

代理的成功通常取决于其以下能力：

通过将工具与实用知识相结合来生成有效的计划（例如，知道为客户退款请求调用哪些 API 以及以什么顺序调用）
分解和验证复杂的任务，并在每个步骤进行错误处理，以防止复合错误
管理长时间运行操作中的计算成本
通过动态重新规划和适应从错误和意外情况中优雅地恢复
应用不同的验证策略，从结构验证到运行时测试
通过工具调用或共识机制与其他代理协作，当额外的观点可以提高准确性时

使用多个代理达成共识可以提高准确性，但计算成本很高。即使对于 OpenAI 来说，运行并行模型实例以获得基于共识的答案仍然无利可图，即使在高级价格点也是如此——ChatGPT Pro 每月花费 200 美元。多数投票系统将复杂任务的成本乘以 3-5 倍，更简单的架构侧重于强大的单代理规划和验证可能在经济上更可行。

记忆与检索

AI 代理记忆架构

AI 代理需要复杂的记忆管理来维持上下文并从经验中学习。这涉及多个互补的系统：

上下文窗口

LLM 上下文窗口大小的演变

底层语言模型的即时处理能力——限制代理一次可以处理多少信息的“物理内存”。最近的进展将其扩展到超过 100 万个 tokens，从而实现更丰富的单次交互上下文。

工作记忆

在任务期间跨多个 LLM 调用维护的状态：

活动目标：跟踪当前目标和子任务
中间结果：计算和部分输出
任务状态：进度跟踪和状态管理
状态验证：跟踪已验证的事实并在任务执行期间进行更正

上下文管理功能：

上下文优化：通过优先级排序和组织，有效利用有限的上下文空间
内存管理：在工作存储和长期存储之间自动移动信息——从预加载整个知识库到维护动态内存单元以获取相关信息

长期记忆和知识管理

存储系统：

知识图谱：Zep 和 Neo4j 等工具支持实体和关系的结构化表示
虚拟内存：Letta（由 MemGPT 提供支持）等系统提供工作内存和外部存储之间的分页

管理功能：

内存维护：随时间推移自动进行摘要、修剪和集成新信息
内存操作：高效搜索和检索相关信息

现代记忆系统超越了简单的存储，可以实现：

复合任务处理：管理多步操作，其中必须在各个步骤中保持准确性
持续学习：从持续交互中自动构建知识图谱（例如，Zep）
内存管理：通过自动内存管理实现虚拟“无限上下文”（例如，Letta/MemGPT）
减少错误：改进信息检索以减少幻觉并保持一致性
成本优化：有效利用上下文窗口，最大限度地减少 API 调用和延迟

记忆系统对代理至关重要，因为：

任务通常需要多个步骤，这些步骤取决于之前的结果
信息需求通常超过模型的上下文窗口
长时间运行的操作需要持久的状态管理
必须在复杂的工作流程中保持准确性

Anthropic 的模型上下文协议 (MCP)等集成标准正在提供将代理与持久内存系统连接的标准化方法。然而，在有效地编排这些内存类型的同时管理计算成本和保持一致性方面仍然存在挑战。

安全与执行

随着代理获得自主权，安全性和可审计性变得至关重要。现代部署需要多层保护：

工具访问控制：仔细管理代理可以执行的操作
执行验证：在执行之前验证生成的计划
沙盒执行：e2b.dev 和 CodeSandbox 等平台提供用于运行不受信任的 AI 生成代码的安全隔离环境
访问控制：精细的权限和 API 管理以限制影响
监控和可观察性：通过 LangSmith 和 AgentOps 等专业平台进行全面的日志记录和性能跟踪，包括错误检测和资源利用
审计跟踪：决策和系统交互的详细记录

这些安全措施必须在保护与代理在生产环境中有效运行的灵活性之间取得平衡。

实际限制

尽管取得了快速进展，但仍存在几个重大的挑战：

1. 工具调用

基本工具调用：虽然模型擅长规划和推理，但在基本的工具交互方面却表现不佳。即使是简单的 API 调用也显示出高失败率，这主要是由于格式错误和参数不匹配
工具选择：模型经常选择错误的工具，或者无法有效地组合多个工具，尤其是在面对大型工具集时
工具接口稳定性：工具的自然语言接口仍然不可靠，模型会产生格式错误或行为不一致

2. 多步执行

工具调用不稳定：虽然模型擅长规划和推理，但它们难以可靠地通过工具调用来执行这些计划。即使是简单的 API 交互也显示出高失败率，这主要是由于格式错误、参数不匹配和上下文误解
复合错误累积：多步任务放大了这种不可靠性——如果每次工具调用的成功率为 90%，那么一个 10 步的工作流程的可靠性就会下降到 35%。这使得复杂的工作流程在没有广泛的人工监督的情况下变得不切实际
上下文管理：模型难以在多次工具交互中保持一致的理解，从而导致在更长的序列中性能下降
规划可靠性：复杂的工作流程需要仔细验证生成的计划，因为代理通常会忽略关键的依赖关系或对工具的功能做出错误的假设

3. 技术基础设施

系统集成：缺乏标准化的接口迫使团队为每次部署构建自定义集成层，从而产生 значительное 开发开销
内存架构：尽管有向量存储和检索系统，但有限的上下文窗口限制了历史信息访问和自我反思能力
计算需求：大规模部署需要 значительное 的处理能力和内存，从而导致 значительное 的基础设施成本

4. 交互挑战

计算机接口复杂性：即使是最好的代理，在简单的项目管理工具中也只能达到 ~40% 的成功率，并且在使用复杂的软件（如办公套件和文档编辑器）时，性能会显著下降
与同事沟通：代理在通过协作平台与同事互动时，成功率仅为 21.5%，难以处理细微的对话和政策讨论

5. 访问控制

身份验证和授权：代表用户操作的代理在长时间运行或异步任务时面临 значительное 的身份验证挑战。传统的身份验证流程并非为需要跨越数小时或数天的自主代理而设计。

解决方案正在出现——例如 Okta 的 Auth for GenAI，它提供：
- 后台任务的异步身份验证
- 代表用户的安全 API 访问
- 对数据访问的细粒度授权
- 基于推送通知的人工审批工作流程

6. 可靠性和性能

错误恢复：代理难以处理意外错误，并且无法动态调整计划，这使得它们在从错误中学习方面不如人类强大。
跨领域性能差异：代理在不同任务中表现出不同的可靠性，即使在定义明确的领域也是如此。例如，零售业中的函数调用代理可以成功完成单个任务，成功率高达 50%，但在类似任务的变化中，成功率会下降到 25% 以下。这种不一致性出现在各个领域，系统在编码等技术领域实现了部分可靠性。

当前的代理能力在各个领域有所不同。在软件开发中，由于目标和验证清晰，代理可以自主完成 30.4% 的复杂任务。这与 Graham Neubig 的 NeurIPS 2024 笔记一致：“我希望代理自行解决的 30% 到 40% 的问题，它无需任何人工干预即可解决”。然而，在需要更广泛上下文的领域中，性能会下降，代理在行政工作方面失败 (0%)，并且在财务分析方面苦苦挣扎 (8.3%)。这种模式表明，代理在具有明确验证标准和需要更广泛的业务背景或政策解释的任务中表现更好。

最近的进展表明能力的融合：用于更丰富的上下文保留的内存架构、用于通过更长的推理链进行更深入理解的推理改进（如 o 系列模型所示）以及用于分解复杂任务同时在各个步骤中保持状态的规划系统。这些发展表明，增强的上下文理解可能源于这些技术能力的相互作用，而不是需要模型架构的突破。挑战在于协调这些组件，同时管理增加的计算需求。

第 5 部分：未来之路

图片来自 Google Deepmind

通过测试时计算，我们还处于早期阶段，因此我们有很大的空间，有很多跑道可以进一步扩展——Noam Brown

测试时计算（在模型推理期间使用的资源）的未开发潜力，表明了在扩展模型智能方面发生了根本性的转变。虽然预训练面临限制——“数据是 AI 的化石燃料……我们只有一个互联网”——但具有测试时计算的推理模型提供了一条新的前进道路。正如 Sutskever 所说，使用足够的计算进行下一个标记预测可能足以实现 AGI。

人工智能代理突破的路线图

近期演进 (2025)

OpenAI 首席执行官 Sam Altman 表示：“我们现在确信我们知道如何构建我们传统理解的 AGI”。然而，未来的道路在很大程度上依赖于计算密集型推理——正如 Brown 指出的那样，解决最难的问题可能需要“一百万美元”的计算成本来解决。这表明，虽然我们可能知道如何通过测试时的计算来扩展智能，但部署经济性将决定我们可以解决哪些问题。

快速进展的迹象并未放缓。虽然高级推理能力仍然计算成本高昂，但当前的部署具有变革意义——Salesforce 报告称 AI 代理的生产力提高了 30%，导致暂停 2025 年的工程师招聘。这与行业预测相符——Meta 的 Zuckerberg 预计，到 2025 年，“我们 Meta 以及其他公司……将拥有一个可以有效地成为一种中级工程师的 AI”。这些影响表明，类似 AGI 的能力可能会首先出现在具有明确成功标准和丰富合成数据的领域，如编码和数学推理。

核心智能

推理模型的开发周期压缩 (2–4 个月)
数学和编码基准测试的阶跃变化
通过系统化的任务分解、行动路径探索和结果验证来改进推理

界面与控制

人与 AI 协作的新模式
通过模型上下文协议实现标准化数据访问
从格式化命令 (文本/JSON) 转向程序化工具使用
改进的视觉感知能力

记忆与上下文

具有超大上下文窗口的新模型
通过更小的模型和重复采样实现具有成本效益的推理
使用模型蒸馏和数据策划降低推理成本

基础设施与扩展

没有足够的计算能力以大规模部署代理
没有足够的芯片和电网中的电力来构建更多计算能力

中期发展 (2026)

核心智能

具有验证功能的多步规划
改进的处理不确定情况和边缘情况
推理模型趋于平稳

界面与控制

通过系统化的 UI 探索实现更可靠的计算机控制
代理原生的安全和权限框架
通过代码生成进行动态工具创建
多代理系统实现大规模高效协作

记忆与上下文

在交互式环境中更可靠的状态跟踪 [Memory Survey Paper]

虽然当前的代理在基本的 UI 交互方面存在困难——使用简单的项目管理工具仅实现了约 40% 的成功率——但新的学习方法显示出希望。允许代理探索界面并通过“逆向任务合成”推导出任务，在复杂的 GUI 交互中将成功率提高近一倍。这表明，到 2026 年，我们可能会看到能够通过直接理解界面而不是遵循人类指令来可靠地控制计算机的代理。

长期可能性（2026年以后）

核心智能

出现新型号，实现更复杂的世界建模
跨领域推理能力
科学发现自动化
新领域的复杂问题解决

界面与控制

转向代码优先的代理范式

基础设施与规模化

计算集群和电力基础设施的规模化规模化

图片来自Latent Space

人工智能能力及其经济影响的进展正变得越来越清晰。ChatGPT Plus 以每月 20 美元的价格推出了基本聊天功能，而ChatGPT Pro 则以每月 200 美元的价格带来了高级推理功能。OpenAI 最近大力推进多代理研究以及 Altman 对“知道如何构建 AGI”的信心表明，自主代理可能即将到来——其成本可能高出一个数量级。正如 Brown 指出的那样，我们才刚刚开始扩展推理能力，一些重要的问题可能需要“一百万美元”的计算量才能解决。这暗示着未来可能会出现越来越强大的系统——从自主代理到创造性的问题解决者——其计算成本可能会更高。

我们现在拥有了 AI 代理的核心构建模块，它们模仿人类解决复杂工作的方式：将问题分解成更小的任务、理解上下文、从经验中学习、使用工具以及适应反馈。虽然这些能力在受控环境中有效，但它们难以应对现实世界任务的复杂性和不确定性。

未来几年将是关于实验——发现如何有效地组合这些组件、找到可靠的模式以及建立构建稳健代理的最佳实践。虽然我们拥有核心能力，但要学会将它们编排成能够应对现实世界复杂性的可靠系统，将需要技术创新和实践经验。AI 代理时代已经开始，但我们仍处于了解如何构建它们的早期阶段。