
解锁AI代理的未来:2025年及以后的5个关键洞察
Agent 定义
正如 LangChain 的 Harrison Chase 所说,AI agents 是使用 LLMs 决定应用程序控制流程的系统。OpenAI 也在两周前的 AIE 2025 上发布了他们对 Agents 的定义:Agent = Model + Instructions + Tools + Runtime。
来源:AIE 2025
从本质上讲,agents 代表了 AI 运作方式的根本转变——从被动的响应生成器转变为可以规划和执行多步行动的主动决策者。一个 agent 通常由以下部分组成:
- 一个 LLM 作为规划和推理的“大脑”
- 访问各种工具和 API
- 用于维护上下文的记忆系统
- 用于分解复杂任务的规划机制
- 执行行动的能力
常见的误解:“Agent 成分”与 Agents
许多被标记为“agents”的产品实际上是具有函数调用能力、查询路由、简单对话记忆和提示链的 LLM 应用程序。虽然这些功能可能会增加交互层,但它们不一定赋予定义一个真正 agent 的面向目标、自适应的品质。
真正的 agents 旨在进行动态规划和执行。它们具有有状态的 环境交互——使它们能够评估部分结果,改进其方法,并根据情况变化调整策略。
Agent 作为一个“状态”(由作者创建的图像)
常见的误解:“完全自主”的神话
也许最大的误解是,agents 是“一劳永逸”的解决方案,能够以完全自主的方式处理任何任务。实际上,agents 在它们提供的独立性和适应性方面差异很大。以下是四个广泛的类别,说明了不同的代理级别——以及为什么在您达到完全自主之前,您仍然无法真正“一劳永逸”(这个目标在很大程度上仍然是理想的):
- 具有多个工具的 Agent——基于 LLM 的系统,可以调用专门的 API 或外部函数来完成特定步骤。虽然比单次 LLM 更强大,但它们仍然需要用户为每个主要操作定义提示或指令。
- 多 Agent 协作——多个专门的 agents 协同解决复杂任务。每个 agent 处理一个特定的领域(例如,数据检索、分析或决策),但更高级别的编排——通常由“主管” agent 完成——使一切保持正轨。
- 异步 Agents——能够独立运行一段时间而无需持续人工监督的 Agents。它们维护状态,安排自己的任务,甚至可以在稍后重新连接资源或用户,但仍然依赖于人类定义的目标或约束。
- 自主 Agents——具有重大决策和执行独立性的高度先进的系统。它们动态地完善自己的目标,即时与新资源交互,并不断从结果中学习——推动更接近“一劳永逸”的理想,尽管真正的免提自主权仍在进行中。
为什么要使用 Agents?
对于许多熟悉机器人流程自动化 (RPA) 的人来说,AI agents 看起来可能只是另一种形式的任务自动化。RPA 确实可以高效地处理重复的、基于规则的流程,但它难以处理需要实时决策的非结构化或流动场景。当工作流程发生变化或出现异常时,RPA 经常会崩溃。相比之下,AI agents 可以适应不断变化的情况:它们从交互中学习,在多个步骤中保持上下文,并做出自主决策。这使得它们比传统的 RPA 解决方案更灵活、更有弹性,正如 a16z 关于“RIP to RPA:智能自动化的崛起”的对话 中所讨论的那样。
有些人可能会争辩说,使用精心设计的提示进行 LLM 推理可以解决许多复杂的问题。虽然精心设计的提示和思维链技术确实增强了推理能力,但标准的LLM 应用程序在本质上仍然受到其单次、无状态性质的限制。如果没有 agents 提供的编排层,这些系统就会在交互中缺乏持久的记忆,难以将复杂任务分解为可管理的步骤,并且无法动态地决定何时检索信息或调用外部工具。当任务需要多个相互关联的操作、对中间结果的适应或与外部系统的集成时,这种差距变得越来越明显。让我们更仔细地研究这种比较。
迭代验证和改进
Agents 擅长需要迭代验证和改进的任务。例如:
- 正如 研究 表明的那样,SQL agents 的表现优于多次尝试的 SQL 生成(即使使用多数投票),因为它们可以验证中间结果,从之前的错误中学习,并根据实际执行结果逐步改进其方法。
- Agentic RAG 系统通过根据原始查询意图主动验证检索到的信息、识别差距或不一致之处,并在需要时有策略地寻求额外信息,从而超越了标准 RAG。
来源:https://ysymyth.github.io/papers/Dissertation-finalized.pdf
编排多步骤操作
Agent 可以执行在单个 LLM 调用中不可能实现的顺序操作,这正是因为它们解决了传统 LLM 应用程序的无状态性质。虽然 LLM 本身必须将每个提示作为与上下文窗口有限的孤立交互来处理,但 agent 可以在多个步骤中保持状态,跟踪目标的进展,并根据之前的操作及其结果做出决策。让我们看一个例子,如下所示。
在第一个截图中,我们看到一个 LLM 成功处理了餐厅预订的函数调用。它提取详细信息,填写缺失信息,并确认预订。到目前为止,一切顺利。但在第二个截图中,当修改预订时,LLM 未能首先调用 cancel_booking。发生这种情况不是因为 LLM 不理解预订和取消之间的概念关系,而是因为一旦它完成一个函数调用,该交互状态就结束了。LLM 没有内置的机制来编排一系列依赖的操作。
然而,由同一 LLM 模型驱动的 agent 正确地编排了工作流程,确保在创建新的预订之前取消现有的预订。
任务分解(“慢思考”)
使用 agent 来规划和分解任务反映了 推理模型 背后的相同“逐步”理念。agent(和推理模型)不是试图一次完成所有事情,而是将挑战分解成更小的部分:
- 更容易管理: 每个块都更容易推理,这通常会导致更准确的结果。
- 中间检查: agent 可以验证部分步骤并及早纠正错误,从而防止下游出现重大错误。
- 类似人类的过程: 这种迭代风格模仿了人类解决问题的方式——慢慢思考,评估每个步骤,并在必要时进行改进。
为什么是现在(为什么 2025 年是 agent 之年)?
由于关键因素的融合,当今的 AI 领域已为基于 agent 的解决方案做好了准备。模型变得越来越强大——能够处理更长的推理路径并利用更丰富的数据——而专门的框架使结构化输出和工具集成比以往任何时候都更加无缝。快速的成本降低(例如,GPT4 推理便宜 1000 倍)、不断扩大的模型多样性(GPT4.5、Claude 3.7、Grok 3 等)以及基于 RL 的微调等进步为大规模部署 agent 提供了有力的理由。与此同时,多 agent 研究正在释放新的协作模式,更快的推理速度正在提高实时响应能力。总而言之,这些发展意味着 agent 现在可以以更低的成本提供更大的价值,巩固了它们在下一波智能自动化中的作用。
agent 的优势:有前景的用例
随着 AI agent 能力的扩展,现实世界中的应用范围也在扩大。以下是一些值得注意的用例,分为展示明确影响的“杀手级应用”和有望快速增长的“有前景的应用”。
杀手级应用
-
编程 agent
- 描述: agent 利用代码生成模型(例如,“Agent + CodeGen”)来处理诸如起草函数、编写测试或重构大型代码库之类的任务。它们还可以与开发人员工作流程集成,以处理版本控制、运行测试,甚至执行代码审查。
- 重要性: 编程 agent 加快了软件开发速度并减少了人为错误。特别是对于重复性任务,它们可以帮助团队更快地发布产品并专注于更具创造性的问题解决。
-
客户支持 agent
- 描述: 这些 agent 充当客户查询的一线响应者——提取相关上下文、从知识库中提取信息并从过去的交互中学习。
- 重要性: 它们可以提供 24/7 全天候支持,并保持一致的质量,从而使人类支持团队可以处理需要同情心或更深入专业知识的复杂问题。
-
深度研究
- 描述: 通过将 agent 与强大的搜索功能(“Agent + Search”)配对,该系统可以筛选大量数据集、学术论文或内部文档,以总结调查结果并提出新的调查方向。
- 重要性: 它可以加速研究过程,无论是在科学、法律还是商业环境中。agent 可以提取关键见解,交叉引用多个来源,并突出显示人类可能错过的联系。
有前景的应用
-
计算机使用
- 描述: agent 与各种感应或接口工具(“Agent + Vision”、“Agent + Voice”)相结合,可以自动化重复性或多步骤的计算机任务,从管理电子邮件到安排会议。
- 重要性: 通过桥接接口并端到端地编排任务,这些 agent 充当个人生产力助手,处理日常的数字琐事,以便用户可以专注于更高价值的工作。
-
个性化学习
- 描述: agent 可以适应个人的学习方式,创建个性化的课程计划,并实时提供有针对性的反馈。
- 重要性: 通过根据每个学习者的进度和内容进行调整,这些 agent 可以提高参与度并改善正规教育和专业培训场景中的结果。
-
迁移
- 描述: 在企业环境中,agent 可以帮助进行系统迁移——分析依赖关系、自动化数据传输和编排测试。
- 重要性: 迁移通常是复杂、耗时的工作。agent 可以通过以系统、可跟踪的方式处理大部分过渡工作负载来减少人为错误和停机时间。
实践示例和代码库
如果您想探索这些开源存储库:
探索这些存储库将使您能够亲身体验 agent 的操作方式——从设定目标和分解任务到调用外部工具和跟踪进度。您还将了解每个项目的设计选择,例如内存的存储方式、用户提示的结构方式以及部分结果的验证方式。
控制与自主权范围
对于 AI 代理而言,一个最重要的问题是给予系统多少自由度。自由度太小,您将失去自主性的创造性优势。自由度太大,您可能会失去可预测性和安全性。大多数用例都介于这两种极端情况之间:
面向控制的方法
- 可预测的、基于规则的工作流程
- 明确的防护措施和清晰的逐步流程
- 强调安全性和可靠性
理想情况:
- 重复性、常规性任务
- 需要将风险降至最低的高风险场景
- 从一开始就知道确切结果的项目
示例:
- Amazon Bedrock Flows,它使用可视化工作流程设计器,并在每个步骤中进行明确的控制。这确保了透明度,并减少了关键任务中的意外情况。
面向自主权的方法
- 灵活、自适应的框架
- 代理可以自主选择其工具和方法
- 强调创造性问题解决和适应性
理想情况:
- 不可预测或新颖的场景
- 快速发展的需求
- 创新解决方案提供显著优势的情况
示例:
- Amazon Bedrock Agents,它允许代理动态地为给定的上下文选择最佳工具和策略,从而提供更大的自主性。
代理框架选项
从高层次来看,代理可能看起来像是 LLM 的“包装器”。但是,就像 React 只是 DOM 的“包装器”一样,真正的价值在于实现细节。一个构建良好的代理框架提供:
- 用于一致性的标准化提示模式
- 用于完善输出和捕获错误的强大评估循环
- 用于执行文本生成之外的任务的无缝工具集成
好消息是,您不必从头开始构建所有内容。存在多个现成的解决方案,可帮助您专注于设计智能工作流程,而不是重新发明轮子。此外,框架越来越趋于一致——由于提供商认识到需要在严格控制与灵活自主之间取得平衡,许多框架正在发展,以融合来自两端范围的功能。
托管服务
- Amazon Bedrock Agents — 用于构建灵活的、使用工具的代理,这些代理可以适应不断变化的上下文。
- Amazon Bedrock Flows — 用于通过可视化编排创建更受控制的、明确的工作流程。
开源框架
- LangGraph — 适用于复杂、定义明确的工作流程,其中控制和清晰的状态转换是关键。
- CrewAI — 专注于多代理协作,为每个参与者提供更大的自主权。
- Pydantic-AI — 适用于需要结构化输出和内置数据验证的代理。
- AutoGen — 专门用于静态和动态对话,在灵活的模式和受控执行之间取得平衡。
通过将您的代理设计与用例的需求保持一致——并利用框架之间日益趋同的趋势——您将找到一个平衡点,从而最大限度地提高安全性和创新性,释放 AI 代理的真正潜力。
结论
AI 代理代表了 AI 中一种强大的新范式,使系统能够规划和执行复杂的任务,而不仅仅是响应提示。但要充分发挥其潜力,意味着要在控制和自主权之间找到正确的平衡,根据用例的复杂性和风险状况调整您的方法。
通过仔细评估您的需求并选择与您期望的自主程度相匹配的框架,您可以将 AI 代理嵌入到既具有创新性又可靠的工作流程中。随着该领域的成熟,预计将看到更复杂的框架、改进的评估指标和最佳实践,这些将使这些下一代 AI 工具在各个行业中更易于访问、更强大且更有价值。