Type something to search...
深度研究 AI 代理比较:发现最佳的自主研究工具和效率提升方法

深度研究 AI 代理比较:发现最佳的自主研究工具和效率提升方法

在过去的几周里,我们见证了几款“深度研究”AI 代理的推出,这些代理旨在自主地对给定主题进行全面研究并生成详细报告。与简单的问答机器人不同,这些代理执行多步推理:制定搜索查询、浏览网络内容、分析数据,并将发现结果综合成带有引用的结构化输出。例如:

所有这些实现无疑可以通过在几分钟内处理数小时的研究工作来为人类节省大量时间。我个人经常使用这些!

深度研究代理有两种主要的架构方法:

  • 完全自主的代理: 一旦收到提示或主题,这些代理就会端到端地独立运行。例如,OpenAI 的 Deep Research 功能(于 2025 年 2 月推出)允许 ChatGPT 像一个 “研究分析师” 一样,无需干预地工作数分钟,从网络上收集信息并编写带有来源的报告。它由 OpenAI 即将推出的 o3 模型的专门版本提供支持,该版本针对推理和网络浏览进行了优化。用户只需提供主题,回答几个附加问题,代理就会自主处理其余部分。这种全自动方法很方便,但需要一个非常强大的代理来决定研究方向并自行验证信息。

  • 人机协同(HITL)代理: 这些代理在研究工作流程的不同步骤中结合了人类的反馈或批准。AI 不会在未经质疑的情况下运行到完成,而是在制定研究计划或大纲后暂停以获取指导——以便用户可以在代理继续之前进行审查和调整。这个 “计划审查” 阶段充当质量控制,确保代理的理解与用户的意图一致。一些开源实现(稍后讨论)采用先计划后执行的设计,让用户可以控制流程。

完全自主的代理与人机协同(HITL)代理

深度研究工具中的常见架构

虽然实现方式各不相同,但深度研究代理通常共享一些架构模式。一个常见的设计是将代理划分为专门的子代理或组件,通常描述为 管理器代理工具调用代理(有时通过“CodeAgent”范例一起实现)。

深度研究代理高级架构

LangChain 的 Open Deep Research 文档也有一个很好的概述:

来源:https://github.com/langchain-ai/open_deep_research/blob/main/README.md

管理器代理(规划/编排)

此代理(通常是主要的 LLM 实例)负责解释用户的请求,将研究任务分解为子任务(例如报告的各个部分或要回答的单个问题),并编排整个过程。在以代码为中心的代理框架(如 Hugging Face 的 smolagents)中,管理器代理通常采用 Code Agent 的形式——这意味着它可以生成和执行代码来执行操作。管理器处理逻辑、规划和结果的综合。它可以决定 搜索什么使用哪些工具 以及 如何 聚合信息。这类似于人类研究人员为回答一个复杂问题规划大纲和策略。

工具调用代理(执行)

这些代理专门用于与外部资源交互并执行操作,如网络搜索、网页导航或数据提取。工具调用代理可能会查询搜索引擎 API、点击结果、抓取页面内容或调用其他实用程序。它侧重于从世界(系统的“互联网助手”部分)获取原始信息。例如,一个工具代理可能会使用 DuckDuckGo 或 Google Search API 来检索相关链接,而另一个工具代理则会解析网页的文本以获取关键事实。在许多系统中,这些工具使用行为也可以由主代理处理,如果 它有能力输出代码或结构化操作(如 CodeAgents 中)。关键在于拥有专门的模块来 获取和处理外部数据,以便管理器(或主 LLM)可以对该数据进行推理。

搜索、导航和检查网页

深度研究代理严重依赖网页浏览能力。 它们通常集成一个搜索工具和一个内容检查器/阅读器。

  • 网页搜索: 代理根据用户的提示或当前的信息需求制定搜索查询。它使用 API 或浏览器自动化来获取搜索结果(例如,通过 SerpAPI 使用 Google 的 API,DuckDuckGo 搜索工具,或专门为 LLM 使用优化的 Tavily 等服务)。例如,开源的 OpenDeepResearcher 代理使用 SerpAPI 进行 Google 搜索查询,而其他代理则使用 Tavily 的实时搜索 API。 这将返回相关网页或文档的列表。
  • 导航和检索: 代理随后需要访问这些页面并提取其内容。 简化文本浏览器或 HTTP 客户端用于获取页面 HTML 并提取文本。 一些代理包含一个 检查器工具,用于读取和解析常见格式(HTML、PDF 等),并允许在文本中进行搜索。 例如,Hugging Face 的开放深度研究原型包含一个基于文本的基本网页浏览器和一个文本文件检查器(借用了 Microsoft 的 Magentic-One 代理),用于加载页面并扫描相关信息。 代理可以在页面内搜索特定关键词或标题,以确定其是否有用,并提取内容片段。
  • 迭代探索: 这些代理通常不是进行单轮搜索,而是进行迭代。 管理器 (LLM) 读取检索到的信息,并可能提示工具代理进行后续搜索或深入点击超链接。 此循环持续进行,直到代理确定它有足够的信息或达到预定义的限制。 在整个过程中,代理会维护一个 状态 或记忆,记录它到目前为止学到的内容、涵盖了哪些子主题以及还存在哪些差距。 现代代理通常使用 反思 策略——代理检查其当前知识并询问“我是否需要更多关于 X 的信息?” 如果是,它会触发新的查询以深入挖掘。

如前所述,一些代理完全独立地执行这些步骤,而另一些代理则会暂停以合并人工输入。 无论工作流程如何,一旦研究完成,最后一步就是综合——将所有发现合并成一份连贯的报告。 管理器代理通常会获取搜索阶段收集的笔记或片段,并撰写一份结构良好的文档。 这不仅包括合并事实,还包括生成解释、比较和插入引文以进行溯源。

评估指标

为了衡量深度研究代理的有效性,研究人员使用了测试复杂推理和知识整合的基准。 一个突出的基准是 GAIA(通用 AI 助手),它评估 AI 代理处理需要多步推理、工具使用(如网页浏览)以及结合来自多个来源的信息的现实世界问题解决任务的能力。 这篇文章 涵盖了一个例子。 GAIA 提出了不同难度的题目(1 级到 3 级)。 3 级问题通常涉及多重推理跃迁,并使用外部工具或参考资料,模拟人类分析师可能面临的挑战。

另一个评估是 “人类最后的考试” (HLE)——一项涵盖 100 多个专家级科目的测试,旨在查看 AI 是否可以通过人类给出的最后一次考试(涵盖法律、医学、工程等)。

深度研究代理在这些基准上取得了快速进展。 OpenAI 报告称,其深度研究代理使用 o3 模型在“人类最后的考试”中达到了 26.6% 的准确率,这与之前 GPT-4o 和 Google 的 Grok-2 等模型实现的约 3% 相比,是一个巨大的飞跃。 虽然 26.6% 听起来可能很低,但这项考试极具挑战性,即使这个分数也远远超过了早期的 AI 表现,表明了新的专家推理能力水平。

在 GAIA 上,OpenAI 的深度研究也同样设定了新的 SOTA 成果。 OpenAI 的早期报告(并经独立测试确认)显示,该代理平均正确回答了大约 72–73% 的 GAIA 问题,而之前的顶级代理约为 63–67%。 在最难的 3 级 问题上,深度研究代理达到了大约 58% 的准确率(之前的系统在 3 级上的准确率低于 40% 到 50%)。 这种表现表明了该代理在复杂的多步任务中的优势。 简而言之,这些系统开始在以前对 AI 来说完全无法企及的任务上接近人类水平的推理。

开源替代方案

开源复制品正在迅速缩小差距。 Hugging Face 对 OpenAI 深度研究代理的 24 小时复制(使用他们的 smolagents 框架)在 GAIA 的验证集上以早期版本达到了 55.15%。 这低于 OpenAI 的专有代理,但远高于旧的基线(Microsoft 的 Magentic-One 代理在 GAIA 上约为 46%)。 这种改进主要来自于采用 CodeAgent 方法(让 LLM 输出用于操作的代码),从而减少了推理步骤和错误的数量。 这表明架构选择(例如使用代码与 JSON 进行工具使用)如何影响性能。

实现的并排比较

为了了解全貌,让我们比较 OpenAI 的深度研究Google 的 Gemini 深度研究 和领先的 开源实现 在架构、工作流程、搜索策略和性能等关键方面:

架构与模型

OpenAI 的 Deep Research 代理基于专有的 LLM(o3 模型系列)。该模型针对长篇推理进行了优化,并与一个内部代理框架集成,该框架支持网页浏览和数据分析。OpenAI 尚未披露该代理框架的全部技术细节,但它涉及模型编排工具的使用(类似于基于内部代码的代理)。谷歌的 Gemini Deep Research 使用谷歌的 Gemini 1.5 Pro 和 2.0 模型作为核心。

相比之下,开源项目通常利用较小的模型或多个组件:例如,OpenDeepResearcher 可以使用 Anthropic 的 Claude-3.5(通过 OpenRouter API)来处理查询生成和内容分析,而 Hugging Face 的 open-deep-research 演示使用 DeepSeek 进行推理,并使用基于 Python 的工具进行网页抓取。LangChain 的实现可以为不同的阶段插入不同的模型(默认情况下使用 OpenAI 的 o3-mini 进行规划,使用 Anthropic 的 Claude 进行写作,或者使用其他的开放模型)——本质上是一种模块化架构,其中每个阶段都可以使用最合适的模型。

OpenAI 和谷歌的专有代理具有极其强大的模型(o3 和 Gemini 是前沿的,可能具有多模态,并且在考虑工具使用的情况下进行训练)的优势,而开源代理可能使用权重优化的 Llama 衍生品或蒸馏模型来近似这种能力。这意味着专有代理可能更好地处理非常复杂的推理或大型输入,但开放代理正在迅速改进,并且可以在定制硬件上运行。

工作流程设计

OpenAI 的 Deep Research 大部分是完全自主的。用户在 ChatGPT 的界面中提供提示;然后,代理在内部生成一个计划,执行搜索,最后返回一份带有引用的详细报告。用户观察这个过程(ChatGPT 显示它正在采取的步骤的侧边栏,就像一个实时日志,但不会在中途干预。

另一方面,谷歌的 Deep Research 模式明确地在 UI 中包含一个计划批准步骤。在用户最初的查询之后,它会呈现一个草稿大纲(用户可以编辑或完善),并且只有在确认后,它才会继续收集信息并撰写报告。这表明谷歌选择了半自主工作流程,利用 HITL 来提高相关性。这可以防止工作浪费(例如,如果代理要研究错误的子主题,用户可以发现它)。

在开源实现中,我们看到了这两种模式:OpenDeepResearcher 和 Ollama Deep Researcher 在一个一次性自主循环中运行,直到完成(运行期间没有用户交互)。相比之下,LangChain 的 open_deep_research 使用计划并执行的方法,在规划阶段之后暂停,以允许用户反馈(用户可以选择修改建议的章节列表),然后再继续。

这是 LangChain 的工作人员关于他们的 Open Deep Research 实现的一个很棒的视频:

搜索方法

所有深度研究代理都依赖于外部搜索,但来源和方法有所不同:

OpenAI Deep Research 可能会使用类似于早期 ChatGPT 浏览 alpha 或 OpenAI 提到的“Operator”系统(这是一个更强大的浏览器代理)的网页浏览堆栈。它可能会查询通用搜索引擎(可能是 Bing 或自定义 API)以获取结果,然后使用内部浏览器浏览页面。该代理优先考虑可信的来源;报告表明它倾向于引用高质量的参考文献(学术论文、信誉良好的报告),而不仅仅是流行的网页。这表明 OpenAI 的代理可能对看起来权威的来源有一些排名策略或偏好。它还可以通过调用工具来处理非文本数据(OpenAI 提到了用于数据分析的 Python,这意味着它可以获取 CSV 或表格并进行处理)。

谷歌 Gemini Deep Research 肯定不会使用任何其他搜索引擎,并且它与谷歌自己的搜索引擎紧密集成。这意味着它可以访问谷歌庞大的索引和排名算法,这是其覆盖范围广阔的优势。但是,它可能会强调谷歌上流行的或排名靠前的内容。用户观察到,谷歌的代理会从许多来源聚合信息,但有时只是表面上(广泛但肤浅)。

开源选项通常使用公共搜索 API 或开放搜索引擎。例如,OpenDeepResearcher 使用 SerpAPI(谷歌)获取网络结果,并使用 Jina(一个 AI 驱动的内容检索 API)来获取页面文本。其他人通过 API 使用 DuckDuckGo 或 Bing Web。LangChain open_deep_research 默认为 Tavily(一个专为 LLM 设计的搜索 API),并且也可以切换到 Perplexity(一个 AI 元搜索服务)。

开源代理通常通过仅提取文本来模仿浏览器,而不执行 JavaScript 或渲染——这涵盖了大多数需求(文本内容),但可能会遗漏动态加载的内容。开放代理的搜索方法通常可以配置;开发人员可以插入不同的搜索工具。总的来说,这些代理确保它们有一种查询实时网络和获取内容的方式。结果的质量将取决于所使用的搜索 API——例如,使用谷歌的 API 往往会产生良好的信息,但有成本,而免费的 API 可能会有更多噪声。在实践中,开源代理实现了类似的迭代深化搜索:它们获取初始结果,让 LLM 阅读并总结或提取要点,然后生成新的查询以跟进未解答的问题。

报告生成

所有比较的实现都致力于生成带有引用的最终报告。OpenAI 的 Deep Research 以生成非常长、详细的报告(通常是数十页,带有许多引用)用于复杂查询而闻名。它的写作风格结构化——使用标题、项目符号和分析叙述。谷歌的 Deep Research 倾向于生成略短的输出;用户将它们描述为更像是一个扩展的摘要或简报。LangChain Open Deep Research 工具以 Markdown 格式输出,带有章节和引用。开源输出中的引用通常是内联的括号 URL 或映射到参考列表的数字引用——与专有引用类似。开放框架的一个好处是您可以自定义报告格式(例如,确保它始终包含一个介绍,或添加一个特定的章节)。

性能和基准测试

在 GAIA 和 HLE 等具有挑战性的基准测试中,OpenAI 的 Deep Research 目前处于领先地位,这要归功于 o3-mini 模型的强大功能和优化的代理逻辑。

如前所述,HuggingFace 开放的 DeepResearch 在一天的工作中就达到了 OpenAI 的 GAIA 分数的 72–82% 左右。因此,开放解决方案和封闭解决方案之间的差距并非不可逾越,特别是如果愿意使用付费 API 的话。专有解决方案仍然获胜的地方在于易用性和集成性:它们是即用即装的(无需设置,界面美观),并且具有一些功能,例如图表生成、直接 Google Docs 导出等,而开放版本可能还没有。

成本和访问

OpenAI 的 Deep Research 最初仅适用于每月 200 美元的 ChatGPT Enterprise/Pro 订阅,这对于普通用户来说很昂贵。Google 的 Deep Research 在成本方面更容易获得,包含在每月约 20 美元的 Google One Premium 计划中(有一个免费试用月)。

根据设计,开源代理可以免费运行(如果你有计算能力)或非常便宜。许多开放实现使用 OpenAI/Anthropic 模型和搜索的 API 密钥,因此您按 API 调用付费——这可能仅为几美分或几美元/份报告,具体取决于长度。一份指南展示了如何以“不到 1 美元”的 API 成本构建 Deep Research 克隆(参见 构建 Deep Research 代理:1 美元替代 200 美元的 OpenAI 工具)。

并且,如果您使用完全开源的模型(例如在本地运行 Llama 70B)和免费搜索(例如开放搜索索引),除了硬件和时间之外,成本可以基本为零。权衡的代价是增加了复杂性:您需要设置环境,并且性能可能较慢或质量稍低。此外,开源解决方案允许隐私——您可以离线运行代理(Ollama 的版本在您的本地机器上运行所有内容,包括通过本地索引或缓存结果进行搜索),确保没有数据离开您的环境。专有解决方案会将您的查询及其检索到的内容发送到他们的服务器,这可能是敏感研究主题的考虑因素。

希望此比较有助于您决定为您的特定用例使用哪种研究代理。

Related Posts

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

AI 研究报告和论文写作 合并两个系统指令以获得两个模型的最佳效果 Perplexity AI 的 Deep Research 工具提供专家级的研究报告,而 OpenAI 的 ChatGPT-o3-mini-high 擅长推理。我发现你可以将它们结合起来生成令人难以置信的论文,这些论文比任何一个模型单独撰写的都要好。你只需要将这个一次性提示复制到 **

阅读更多
让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

Non members click here作为一名软件开发人员,多年来的一个发现总是让我感到惊讶,那就是人们还在 Excel

阅读更多
使用 ChatGPT 搜索网络功能的 10 种创意方法

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如,提示和输出 你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务,而不仅仅是基本的网络搜索吗? 对于那些不知道的人,ChatGPT 新的“搜索网络”功能提供实时信息。 截至撰写此帖时,该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

阅读更多
掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

10 个常见问题解答 本文是我推出的一个名为“10 个常见问题解答”的新系列的一部分。在本系列中,我旨在通过回答关于该主题的十个最常见问题来分解复杂的概念。我的目标是使用简单的语言和相关的类比,使这些想法易于理解。 图片来自 [Solen Feyissa](https://unsplash.com/@solenfeyissa?utm_source=medium&utm_medi

阅读更多
在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和科技这样一个动态的行业中,保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析,还是希望通过人工智能转变传统领域如法律,这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表,可以助力你的职业发展,并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

阅读更多
揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

在AI军备竞赛中分辨事实与虚构 DeepSeek AI真的是它所宣传的游戏规则改变者,还是仅仅聪明的营销和战略炒作?👀 虽然一些人将其视为AI效率的革命性飞跃,但另一些人则认为它的成功建立在借用(甚至窃取的)创新和可疑的做法之上。传言称,DeepSeek的首席执行官在疫情期间像囤积卫生纸一样囤积Nvidia芯片——这只是冰山一角。 从其声称的550万美元培训预算到使用Open

阅读更多
Type something to search...