
Ai Agents与Ai Copilots:选择适合您挑战的工具的五个关键区别
哪些 agentic AI 特性真正重要? 现代 LLM 能很好地支持它们吗? 哪些问题实际上需要 AI 代理?
如今,“AI 代理”一词经常被用来描述几乎所有可以代表个人执行智能任务的 AI 应用程序。 然而,真正的 AI 代理(目前仍然很少)与典型的 AI 助手有显着差异。
在本文中,我将专门关注个人 AI 应用程序,而不是用于团队和组织的 AI。 在这个领域,与 AI 代理最接近的对应物不是“助手”,而是“副驾驶”:
[## 是什么让 AI 代理与其他类型的 AI 工具不同?
让我们澄清一下 AI 代理、副驾驶和助手等流行语之间的区别,并比较它们的定义……
ai.gopubby.com](https://ai.gopubby.com/what-makes-ai-agents-different-from-other-types-of-ai-tools-1774d0437085)
以下是基本区别:
- AI 副驾驶旨在接管日常任务、检测问题并为用户提供具体的解决方案。
- AI 代理的范围比副驾驶更广。 它们具有更大的自主性,并且比与用户进行更多互动。
目录
在 第 1 节 中,我将更深入地探讨是什么让 AI 副驾驶与 AI 代理区分开来。 剧透:它不是推理。 之后,我将简要介绍两个关于成熟 AI 代理的问题:
- 仅靠推理对于真正“多功能”的 AI 代理来说足够了吗? (理论)
- 目前市场上提供哪些 AI 代理? (应用)
基于此分析,在 第 4 节 中,我将概述选择最适合各种挑战的 AI 工具类型的关键标准。
TL;DR*:当涉及到 深度研究 时,AI 代理确实是必要的。 但是,对于许多其他任务类型——尤其是 购物——AI 代理相对于 AI 副驾驶的优势是值得怀疑的。*
1. 与 AI 副驾驶相比,AI 代理能做什么?
AI 副驾驶
AI 副驾驶是 AI 助手的先进子集。 与传统助手不同,副驾驶通过利用 [更广泛的上下文感知能力] 和 [长期记忆] 提供 智能建议。 在这方面,ChatGPT 已经充当了“副驾驶”,尽管其确定要记住的内容的能力有待提高。
与 AI 副驾驶相关的另一个关键特性——但在 ChatGPT 中缺失——是 主动行为。
例如,AI 副驾驶可以响应典型用户请求生成智能建议。 它“学习”哪些请求通常基于许多用户观察到的模式(通常通过上下文学习,而微调仍然是可选的)而跟随其他请求。 此外,它可以保留特定于单个用户的过去请求的序列。 通过分析其记忆和当前的聊天上下文,副驾驶确定是否在适当的时刻插入相关建议。
由于此类功能,AI 副驾驶似乎会主动行动,因为它“预测”了用户的需求。
AI 副驾驶可以主动行动; 然而,它的环境仅限于特定的应用程序。
与可以在其广泛环境中采取实际行动的 AI 代理不同,AI 副驾驶通常仅限于向用户触发消息。 尽管如此,AI 副驾驶中的后台 LLM 调用引入了一种新的“魔力”级别,相比之下,AI 助手的 LLM 调用是明确请求的,并且总是产生输出。
有关 AI 副驾驶的具体示例,请参阅 这篇文章。
AI 代理和推理
在个人场景中,AI 代理是 AI 副驾驶,但至少具有以下三种附加功能之一:
- 自主性。 AI 代理可以在没有直接人为指导的情况下运行。 然而,今天的大多数 AI 代理都是半自主的,这意味着它们只有在满足某些条件后才会独立行动。 人类指导可以被视为一种工具使用形式,这使得具有人机交互的半自主代理类似于完全自主的代理。
- 环境交互。 AI 代理必须具有感知其指定环境的传感器。 例如,OpenAI Operator 具有基于屏幕截图的“视觉”,专为网页浏览而设计。 此外,AI 代理应该能够使用工具采取行动——例如单击网站上的按钮或与计算机上的各种应用程序交互。 在这种情况下,代理代表已在浏览器或操作系统内授权它的用户进行操作。
- 面向目标的行为。 此功能允许 AI 代理通过制定计划并将目标分解为可操作的任务来实现高级目标。
推理 和 自我监控 是实现面向目标行为的关键 LLM 功能。 目前,所有主要的 LLM 提供商都在努力增强这些功能。 OpenAI 的 o1 和 o3 模型是第一个已知的推理模型,但自 2025 年 1 月以来,该领域的竞争正在以惊人的速度加速:
- DeepSeek R1 最近在推理方面成为了一名优秀的竞争者,
- Google 最近发布了 Gemini 2.0 Flash Thinking,
- xAI 后来发布了 Grok 3,也具有强大的推理能力,
- Claude 刚刚发布了一个混合的 Sonnet 3.7 模型,其中 可以通过推理预算调整思维。
[## Claude 3.7 Sonnet:改变一切的混合推理突破
AI 行业的发展历程有一种特殊的节奏。 我们已经习惯了渐进的……
medium.com](https://readmedium.com/claude-3-7-sonnet-the-hybrid-reasoning-breakthrough-that-changes-everything-392fcaa83db9)
截至 2025 年 3 月初,Grok 3 和 Gemini 2.0 Flash Thinking 在 LMArena 排行榜上占据前两位,根据用户评估(成对比较)使用 Elo 评级系统进行排名:
来源:lmarena.ai,任务概述,按排名,2025 年 3 月 2 日
因此,高级 AI 代理崛起的一个重要因素已经到位:市场上充斥着 推理 LLM,而竞争正在推动它们的快速发展。 但这是最重要的因素吗?
AI 智能体与众不同之处
在我看来,并非所有上述特性真正使 AI 智能体与众不同。
- 推理通常被视为 AI 智能体而非 AI 副驾驶的定义性特征。 然而,这最终是 LLM 本身的能力,它不仅对智能体(决定其行动)至关重要,对副驾驶(决定其对用户的建议)也至关重要。因此,推理——包括自我监控——不应被视为 AI 智能体的根本区别。
- AI 智能体的另一个常见特征是它们通过工具在外部环境中采取行动的能力。 然而,许多 AI 副驾驶也具备这种能力,尽管范围更有限——一个特定的系统,而不是一个广泛的环境。例如,当用户在 CMS 中的应用程序或网页中编辑文档时,AI 副驾驶不仅提供关于用户更改的反馈,还可以在该系统内直接进行更正。
- 同样适用于“传感器”。 在上述场景中,AI 副驾驶不仅观察用户行为——它还可以检查整个系统(无论是文档还是网页),并且可以检测对其进行的外部更改。
因此,AI 副驾驶和 AI 智能体之间的根本区别不在于推理、行动或传感器本身,而在于以下两个关键方面:
- AI 副驾驶缺乏自主性,尽管它仍然可以主动行动。 相比之下,AI 智能体在其目标范围内自主运行,这意味着它不仅解决任务——它还根据需要生成新任务以实现其目标。
- AI 副驾驶在协助用户完成特定任务时最有效,这些任务位于单个系统内。示例包括在特定编辑器中创建复杂文档或在特定市场上选择产品。 另一方面,AI 智能体更具通用性。它可以在一个更广泛的环境中运行,该环境可以跨越多个系统,涉及其他用户,甚至与其他智能体协作。
如果一个 AI 系统被称为特定领域的智能体或特定行业的垂直智能体,它可能本质上是一个 AI 副驾驶。这两种 AI 之间的区别正变得越来越模糊。
因此,我将仅将术语*“智能体”*用于高度通用、多用途的 AI 系统,这些系统不限于特定领域。此类智能体的示例包括 OpenAI 的 Operator 和 Deep Research。
2. “通用型” AI 智能体需要什么级别的智能?
我将总结上一节的两个主要区别,如下所示:AI 副驾驶具有相对较窄的可能解决方案范围,而通用型 AI 智能体则在一个大得多的解决方案空间内运行(抱歉使用这个抽象术语)。
- 当今的 LLM——由于其不断扩展的上下文窗口和改进的跟踪上下文细节的能力——已经足以在 AI 副驾驶的相对较小的解决方案空间中导航,使其成为一个高效的助手。
- 然而,AI 智能体预计将在一个广阔的解决方案空间中以类似人类的水平运行。**目前,LLM 尚未具备此能力。**很可能需要 AGI 来处理功能齐全的 AI 智能体所需的大量解决方案。
思考只是智能的一部分
由于真正的 AGI 尚未存在,业界正试图使用支持推理的 LLM 来构建通用型智能体。这包括训练 LLM 进行自我验证、探索多种解决方案并选择最符合上下文的选项。
这些推理能力足以让 AI 智能体像人类一样在广泛的任务中行动吗?我对此表示强烈怀疑。在许多现实世界的场景中,人类并非纯粹通过逻辑推理来解决问题,这是低效的。
将 AI 智能体想象成一个完全缺乏现实生活经验的人。它有一个发育不良的“系统 1”(缺乏由经验塑造的快速、直观的思维方式),而是完全依赖于缓慢、费力的“系统 2”进行理性决策。具有这种扭曲思维方式的智能体不太可能与全面发展的人类相匹配,其成本可能与人类的时间成本一样高。
[## 通过系统 1 和系统 2 思考的视角理解 AI
在深入阅读一本好书时,有没有过那种“啊哈!”的时刻?好吧,我刚刚经历了一个,我迫不及待地想分享……
www.linkedin.com](https://www.linkedin.com/pulse/understanding-ai-through-lens-system-1-2-thinking-suman-chittimuri-d9pac/)
让人类慢慢思考——而不是 AI 智能体!
更重要的是,我们是否真的希望 AI 在所有方面都取代我们?一个更具体的问题可能是:
在我们需要 AI 帮助的任务中,我们多久依赖于我们缓慢、分析性的“系统 2”?
就我个人而言,我会说很少。我真正想卸载的是日常任务,例如根据预定义的提纲撰写文本,这些任务通常不需要深入的推理(系统 2)。我不希望委托的是思考本身——例如创建提纲。
这就是为什么我很少需要一个完全自主的 AI 智能体。更常见的是,我只是希望 AI 协助完成更简单、更具体的任务——AI 副驾驶更适合完成的任务。
与 AI 智能体不同:
- 副驾驶通常不需要广泛的推理;其内置的 LLM 功能(发育不良的“系统 1”)足以完成其工作。
- 副驾驶可以提供高质量的结果,因为它在相对较窄的解决方案空间内运行,并且可用的上下文足够。
然而,并非所有人都觉得深度思考像我一样令人愉快。许多人会很乐意将甚至系统 2 级别的任务委托给 AI。
这就是为什么在第 4 节中,我将探讨影响智能体和副驾驶之间选择的其他因素。但在深入研究这些因素之前,让我们首先检查一些现实世界的 AI 智能体,以便将讨论建立在具体的例子上。
3. 市场上都有哪些 AI Agent?
Operator、Computer Use 和类似 Agent 的局限性
OpenAI Operator 可以被视为半自主 Agent,但许多用户指出,即使在没有任何风险的情况下,它也会问太多问题,需要过多的确认:
“Operator 就像开着带巡航控制的汽车——偶尔会把脚从踏板上移开——但它远非全自动驾驶。”
此外,尽管 Operator 在技术上设计为与任何网站交互,但实际上,它远非一个通用的解决方案。它在一组预定义的平台上可靠地工作,用于购物和餐厅预订等任务(例如 Instacart 和 OpenTable),其功能已得到测试。但除此之外,它的表现并不稳定——有时甚至会生成不正确或完全虚构的数据。
Google 的 Project Mariner 旨在在 Chrome 中提供类似的功能,目前仍处于封闭测试阶段。与此同时,许多人热切期待 Claude 的消费者产品,它在 2024 年 10 月发布了其 Claude Computer Use Agent(基于略有不同的原则)的 API。但有一件事似乎是肯定的——它将比 Operator 更加“谨慎”,这意味着它不太可能代表您处理发送电子邮件或在社交媒体上发帖等任务。
因此,基于浏览器的 Agent 至少有两个关键限制: — 它们仅在一组预定义的网站上可靠地工作; — 某些操作是被禁止的(例如,允许 Agent 自主发送电子邮件可能会在其所有者与其他人之间产生冲突)。
移动 Agent 面临类似的限制。以 Perplexity Assistant 为例,它是最早尝试的“通用”移动 AI Agent 之一——它仍然仅支持有限范围的应用程序,它可以在这些应用程序中代表用户操作。
深度研究 Agent
为了突出对比,让我们看看专门为深度研究构建的 AI Agent。最近,此类工具的数量激增,它们提供的结果明显优于标准的 AI 驱动的 Web 搜索。
- Perplexity Deep Research 和 Open Deep Research 都可以免费使用。
- Grok 3 DeepSearch 暂时免费提供。
- GPT Researcher 是开源的,但需要 OpenAI API 密钥,这意味着您需要支付 Token 使用费用。
- ChatGPT Deep Research 刚刚通过每月 20 美元的 Plus 订阅提供。
- Gemini Deep Research 可通过 Google One 订阅获得。
Deep Research 现在由 perplexity.ai、x.ai、openai.com、gemini.google.com 和开源项目提供
由于其高度的自主性,Deep Research 工具符合 AI Agent 的标准。
- 它们可以推理,将给定的目标分解为任务,并使用已完成任务的见解来定义使其更接近其目标的新任务。
- 虽然它们缺乏多功能性和某些 Agent 特性(例如,“传感器”与研究场景无关),但它们在完成其特定目的方面表现出色。
在这个阶段,还没有真正能够代表我们处理任何问题的 Agent 工具——即使是在半自主模式下,更不用说完全自主模式了。但是,在特定领域内存在高效的 Agent,例如深度研究 Agent。
考虑到这一点,让我们将典型的 AI 应用分为几组(用例),并针对每个组提出以下问题。
4. 对于这些用例,您需要 AI Agent 还是 Copilot?
让我们检查三个具体的个人 AI 用例:
- **购物和预订助手:**在设定的预算范围内找到并购买最好的产品,订购披萨,预订餐厅的餐桌,或预订旅行安排,例如航班和酒店。
- **行政助理(用于日常任务的 Agent):**管理任务、设置提醒、安排约会、回复电子邮件以及处理其他行政职责。
- **研究员:**对复杂主题进行深入研究,用经过事实核查的信息支持论点,以及撰写报告或文章。
问题是:哪种 AI 工具最适合这些需求?
例如,带有 Operator Agent 的 ChatGPT Pro 订阅(每月 200 美元)是正确的选择吗?或者,带有 o3-mini 推理模型和 Copilot 功能(例如内存和带有系统提示的自定义 GPT)的 ChatGPT Plus 就足够了吗?
AI 工具选择标准
在 AI Agent 和 AI Copilot 之间进行选择时,请至少考虑以下关键标准:
- A. 为 AI 制定问题需要多少时间和精力?
- B. 您希望在多大程度上卸载问题解决过程?具体来说,您是否希望在中间步骤中保持参与?
- C. 最终结果的质量(最优性)有多重要?
用例 1:购物 AI 代理
虽然有些人将现有的 AI 购物解决方案称为代理,但它们并非真正的 AI 代理,因为:
- 它们缺乏自主性。
- 它们的通用性甚至更受限。
例如,最早的 AI 购物解决方案之一,Perplexity 的 Shop Like a Pro,充当具有基本推理能力的助手,用于搜索和选择最佳产品。但是,如果您从其列表中选择一个产品,并想使用一键式“Buy with Pro”体验完成购买,此功能取决于卖家是否与 Perplexity 集成——这不是 AI 驱动的功能。
这并不意味着现在不能构建这种通用的 AI 代理。
事实上,有些人已经开始自己创建!而且这不一定需要编码——您可以通过将基于 API 的浏览器代理(如 Skyvern)与 no-code 自动化平台(如 n8n、Zapier 或 Make.com)集成来构建个人 AI 代理:
这种 DIY 代理可以比现成的解决方案更自主、更通用。
但是我们真的需要代理来完成购物和类似任务吗?
我不太喜欢购物,但我不能否认购买的期待会给我们带来不错的多巴胺激增。而且当我们把购物委托给 AI 代理时,我们会错过这种激增。相比之下,在购物过程中与 AI 副驾驶互动仍然会触发乐趣。与“手动”在线购物的唯一真正区别是减少了时间投入——并且有了副驾驶,我们可以灵活地决定我们想花多少时间。
这在度假规划方面比仅仅选择产品更相关。一个 AI 代理可以代表您预订“最好的”航班和酒店。但是,想象一下,如果这些任务在几分钟内而不是几小时内完成——在 AI 副驾驶的帮助下。您真的会更喜欢一个完全自主的代理吗?我怀疑。由于对假期的期待而产生的兴奋与我们积极参与购买过程密切相关。
预订的繁琐部分不是选择选项——而是完成购买,尤其是对于需要填写表格的机票。也就是说,考虑到涉及的财务风险,交易本身永远不应完全交给 AI 代理。AI 驱动的表单填写可能有所帮助,但您仍然应该掌控。在这种情况下,副驾驶是更明智的选择。
这些 A-C 标准的分数越高,就越有理由避免使用 AI 代理。
在这三个因素中,只有标准 C(实现最佳结果有多重要?)在购物和预订方面可以倾向于 AI 代理。在这些场景中,AI 并没有生成新的东西——它只是从现有选项中进行选择。而且由于许多选项已经足够好,因此选择并不关键。这就是为什么将决策委托给代理可能是有意义的。但是,只有当您在标准 B 上的个人得分较低时,才建议这样做——这意味着您并不特别重视来自该过程本身的多巴胺提升。
因此,自主代理根本不适合这些类型的任务。即使是半自主代理也并非总是最有效的选择。
更好的方法是将 AI 副驾驶直接构建到您已经依赖的购物和预订平台中。拥有数百万用户和强大财务支持的大型平台正在迅速开发自己的 AI 副驾驶——或者已经推出了它们。
以 AI Trip Planner 为例。除了 Booking.com 上的其他 AI 驱动功能外,它还可以大大缩短规划时间,同时保持质量和乐趣。
用例 2:执行 AI 助手
许多人——尤其是管理者——希望将日程安排、提醒和电子邮件回复等日常任务委托给个人 AI 助手,就像他们委托给人类助手一样——但无需高昂的成本。
然而,我们还没有成熟的 AI 助手能够无缝地处理所有这些任务。这不仅仅是我的观点——例如,可以参考Reddit 上的这个讨论。有针对AI 辅助日程安排的单独解决方案,也有针对不同类型任务的解决方案,但还没有真正通用的“执行 AI 助手”。
- 一个潜在的“通用”选项是 Gemini Advanced 订阅,它可以在 Google 日历和 Gmail 等应用程序中启用 AI 功能。例如,在 Google 日历中,它可以在没有其他参与者的情况下创建活动。在 Gmail 中,不幸的是,它只能读取您的收件箱。虽然所有 Gemini 应用程序都在同一个界面 (gemini.google.com) 中运行,但您需要使用 @ 来提及它们以激活它们,并且它们无法自主地相互调用。
- 另一个选项是 Apple Intelligence,尽管它甚至还没有那么成熟。它不是一个统一的代理,而是由分布在不同应用程序中的 AI 驱动的功能组成。例如,在 iPhone 16 上,它的日历功能仅限于照片转活动功能——这算不上是游戏规则的改变。虽然 Siri 仍然可以创建日历活动,但自 GenAI 时代之前以来,此功能基本上保持不变。
就像购物代理一样,具有技术背景的人可以使用 n8n 或 Make.com 开发自己的自定义执行 AI 助手——在此过程中接受技术挑战。
对于其他人来说,唯一的选择是等待 Google、Apple 和 Microsoft 设法交付功能齐全、用户友好的执行助手,这些助手对普通用户来说是安全的,并将无缝集成到他们的操作系统中。
根据前面介绍的标准 A-C,对“日常任务”中 AI 代理与 AI 协同助手的需求。
A. 制定问题的努力
首先,完全自主的代理行为可能不是必要的,因为个人助手的典型任务足够简单,无需复杂的推理或子任务创建即可执行。但是,在处理大量数据(例如“所有最近的电子邮件”)时,可能需要推理来解释用户请求。在这种情况下,代理可能有用——但并非在所有情况下。
B. 用户参与流程
由于我们不希望参与日常活动,从这个角度来看,代理比协同助手更有利。
C. 最佳结果的重要性
虽然这些任务相对简单,但出错的代价很高。当 AI 行为影响到其他人时,错误变得尤为关键,例如发送电子邮件或安排日历邀请。这就是为什么现有的 AI 助手不能自主执行此类操作的原因。也许下一代 AI 代理将达到 99.9% 以上的准确率,从而使它们能够可靠地执行这些任务。在此之前,协同助手仍然是处理您的收件箱和日历的唯一可行选择。
因此,在日程安排、提醒和电子邮件管理方面,AI 代理和协同助手都不能被认为是普遍优越的。
用例 3:AI 研究
近 30 年来,我一直在各个层面进行研究。我做过科学研究,定期为我的课程和文章分析新的专家级主题,多次作为 IT 经理评估最佳的软件解决方案,并处理过许多其他类型的研究。
然而,我不得不承认,最新的深度研究 AI 代理可以超越我——不仅在速度上,而且在它们的研究质量上,至少当网上有大量相关信息可用时。
自然地,如果没有额外的提示,AI 生成的研究报告通常会脱靶——例如,它们倾向于关注不相关的差异。尽管如此,我还是决定尽可能多地依赖这些代理。
例如,我为上一节进行的初步分析是使用两个 AI 代理进行的(见下文)。虽然我最终重写了他们的大部分结论,但他们找到的相关来源的数量超出了我使用 Google 找到的任何数量——尽管我在 Google 搜索上花费的时间比为 AI 编写详细提示的时间还要多。
用于深度研究的最佳用户界面之一。来源:perplexity.ai
Grok 3 DeepSearch:报告的智能格式设置。来源:x.com/i/grok
我建议查看第 3 节中的深度研究代理列表,以及此类工具在不同研究任务中的比较,例如:
[## I just tested AI deep research on Grok-3 vs Perplexity vs Gemini - here’s the winner
我用 Claude 3.5 Sonnet 策划的 5 个提示对三个聊天机器人进行了测试,以确定哪个聊天机器人是…
理论上,深度研究也可以通过 AI copilot 完成。一年前,MaxAI.co 提供了一个用于 AI 驱动搜索的 copilot,但它已经不存在了——可能是因为用户对交互式搜索过程不感兴趣;他们想要即时、现成的结果(“像 Google,但更智能”)。这是有道理的:
从深度研究代理那里获得一份完整的报告,浏览关键来源,并在需要时让代理澄清或更正任何不准确之处,这要方便得多。由于在报告生成的中间阶段,人为参与并非至关重要,这是一个反对使用 AI copilot*——或者仅仅是一个搜索引擎——进行此类任务的有力论据。*
即使代理的结论有缺陷,它们仍然很有价值——它们激发新的想法、新问题和进一步探索的假设。它们比传统的搜索结果更有价值,因为它们引发辩论 😊——而基于事实的辩论是找到真相的最快方式之一。
基于先前引入的标准 A-C,研究中对 AI 代理与 AI 副驾驶的需求。
与购物和日常任务不同,研究中标准 C 的高分与使用 AI 代理 并不冲突。原因是,最先进的 LLM 已经通过后期训练(RLHF)针对研究任务进行了微调。
在某些情况下,这使得研究代理甚至比人类研究人员更有效。
结论
AI 代理真的对讨论的三个用例具有“问题-解决方案匹配”吗?还是 AI 副驾驶更符合典型用户需求?我的答案总结在下表中:
AI 代理 vs. AI 副驾驶:它们如何适应这三个问题,以及市场上提供了哪些工具
由于有数百种 AI 工具可用,通常不清楚从哪里开始。我希望这项分析能帮助您就使用半自主 AI 代理还是专业的 AI 副驾驶来增强您的解决问题的能力做出更明智的决定。
“您应该努力追求 AI 员工、AI 代理,还是仅仅是 AI 驱动的工作流程?” 这是一个非常复杂的问题,对公司在 AI 革命中生存具有重大影响。作为一名主要专注于 B2B 解决方案的产品经理,我计划在 2025 年分享我基于研究的关于这个主题的见解。敬请关注。