提升ai智能：agentic Rar的革命性升级与rag的对比分析

Rifx.Online
Natural Language Processing , Large Language Models , AI Research
27 Feb, 2025

Created by me using canva

嘿，大家好！

所以，我有一些有趣的研究想通过这篇文章来聊聊。

基本上，这一切都关于我们如何让人工智能变得更聪明，特别是在解决问题和给我们更好答案方面。

你可能以前用过聊天机器人或人工智能助手，对吧？

好吧，在2024年甚至2025年初，有一个叫做检索增强生成（RAG）的系统，它真的是一个游戏规则的改变者。

现在在2025年，一些来自牛津大学的研究人员正在将其升级为一种叫做代理型RAR的东西。

这就像检索增强生成（RAG）获得了超级能力的提升。

让我简单地为你解释一下。

让我们深入探讨一下！！

RAG 到底是什么？

对于那些仍然不知道 RAG 是什么的人，想象一下：

你问一个人工智能，

“嘿，巴西的人口是多少？”

在 RAG 之前，它只能根据训练时学到的、可能已经过时的信息进行猜测。

但有了 RAG，就好像人工智能有了一部手机——它可以快速从数据库或网络上查找最新的信息并说，

“哦，2024 年大约是 2.03 亿。”

这就是 RAG 的酷炫之处——它获取实时信息，使答案更准确。

就像给人工智能一本图书馆卡，可以获取所需的任何信息。

但这里有个问题：

RAG 适合简单的事情，比如事实或快速查找。

但如果你问它一些更棘手的问题——比如

“我应该投资这只股票吗？”

那么它可以提取一些数据，但在推理所有步骤以给出一个可靠答案方面并不擅长。

这就是这个新的 代理型RAR 概念的用武之地，它的感觉完全不同。

为什么我们需要更好的东西

所以，检索增强生成是好的，但它有局限性。

想象一下你在问，

“这个病人最好的治疗方法是什么？”

检索增强生成可能会找到一些医学论文，但它并不会真正连接各个点——比如病人需要多少氧气，或者最新的研究对呼吸机的看法。

它只是把信息扔给你，让你自己去理解。

对于任何需要更深入思考的事情，比如多步骤决策或专家级问题，检索增强生成就显得有些基础了。

这就是为什么研究人员说

“让我们把这个提升到一个新水平！”

认识代理型RAR

代理型RAR就像是检索增强生成的更聪明的表亲。

它不仅仅是获取信息，而是使用一组小助手——称为代理——来解决问题。

这些代理就像专家：一个是编码员，一个是搜索员，还有一个是组织者。

因此，他们一起帮助人工智能更好地推理。

以下是阵容：

代码代理：这个是你的数学高手。需要计算某个东西——比如投资的利润？它会写出一些Python代码，然后运行它并返回数字。例如，它可能会说：“选项A给你7%的利润，选项B只有2%。”
搜索代理：可以把它想象成你的谷歌大师。它在线跳跃，找到实时信息——比如竞争对手在股市上的表现或最新的医疗指南——并将其带回桌面。
思维导图代理：这是组织者，超级酷。它获取其他代理的信息并构建一个“知识图谱”——基本上是一个显示所有事物如何连接的地图。就像在白板上画出一个想法的网络，以跟踪复杂的内容。

所以，当你问人工智能一些棘手的问题时，它不仅仅是独自思考——它会召唤这些代理来协助，然后利用他们的工作来找出最佳答案。

这里有一个流程图，便于理解。

Created by me

它是如何在实践中工作的？

假设你在想

“我应该把钱放在哪里——选项A还是选项B？”

使用旧式的检索增强生成，你只会得到一些基本数据，比如几个统计数据，仅此而已。

但代理型RAR呢？它有一个完整的游戏计划。

首先，代码代理进行数据分析。

它快速计算并说

“用你的$10,000，选项A可以赚到$700，选项B仅$200。”

然后，搜索代理在线检查，

“嘿，选项B的市场不稳定——竞争对手正在崩溃。”

与此同时，思维导图代理将所有这些——你的预算、利润和市场氛围——绘制成知识图谱。它展示了你的风险承受能力如何与选项A的稳定性相关，或选项B如何与市场趋势挂钩。

人工智能查看这个图表并说：“好的，选项A是你最好的选择——它目前有稳定的收益和较低的风险。”

它不仅仅是在输出事实——它像金融顾问一样进行推理。

现实生活中的示例展示

在我看来，它在现实世界中的表现如下：

选择投资

您询问了两个投资选项。代码代理计算了您的潜在利润——选项 A 为 7%，选项 B 为 2%。搜索代理发现选项 B 所在行业由于新竞争而放缓。思维导图代理将所有内容连接起来——您的目标、数字和趋势。然后人工智能说：“坚持选项 A；它更安全，回报更高。”

帮助医生

想象一下，一位医生需要为患者设置最佳的氧气浓度。代码代理确定了完美的氧气水平（例如，40% F iO2）。然后，检索增强生成代理从医学研究中提取最新的PEEP值（如8 cmH2O），思维导图将其结合起来——患者状况、氧气需求、呼吸机设置。人工智能建议：“将氧气设置为40%和8 PEEP，以获得最佳效果。” 这就像在几秒钟内拥有一个研究团队。

破解谜语

有一个棘手的谜语：“一个外科医生说，‘我不能给这个孩子动手术；他是我的儿子！’这个外科医生是谁？”大多数人工智能由于奇怪的偏见而猜错而陷入困境。但代理型RAR的思维导图将其映射出来——外科医生、孩子、父亲——并看到了明显的答案：外科医生是爸爸。简单，但它在其他人失败的地方击中了要点。

玩狼人杀

在研究中，研究人员甚至在狼人杀这个推理游戏中进行了测试。人工智能使用思维导图跟踪玩家的陈述，并找出谁在撒谎。它在对抗专业玩家时获胜率达72%——对一台机器来说，真是相当不错！

它真的有多好？

牛津团队对这个进行了严格测试。

他们在 GPQA 数据集上进行了测试——这是超难的博士级物理、化学和生物问题。

以下是它的表现：

物理：88% 正确
化学：58% 正确
生物：79% 正确

这超越了许多其他人工智能，甚至包括像 Gemini 2.0 或 OpenAI 的 o1 这样的高级人工智能。

在更大规模的问题集上，它也击败了人类专家——物理方面 75% 对比物理学家的 58%，化学方面 53% 对比化学家的 73%（好吧，化学家在这方面仍然胜出），生物方面 73% 对比生物学家的 69%。

关键是，它在专业人士面前表现得很好！

他们还尝试了现实世界的任务——如财务、医学和法律问题，这些问题需要博士花费 20 分钟进行研究。代理型 RAR 在这些问题上的表现超过了 Gemini 的深度研究工具。

它不仅快速，而且优秀。

什么让它运转？

研究表明，使其特别的原因如下：

保持简单
他们发现，搜索和编码这两个工具对于大多数工作来说已经足够。添加更多可能会搞砸事情，就像厨房里太多厨师一样。但对于图表或医学扫描等事情，额外的工具可能会在后期有所帮助。

团队合作至关重要
将任务分配给代理型可以让主要的人工智能保持专注。它不是自己编码，而是将这项工作交给代码代理。就像是，“你负责数学；我来思考这个。”这样一切都更加顺畅。

工具调用讲述了一个故事
对于一个问题，使用更多工具——比如 5 次调用——意味着更好的答案。但如果一个问题需要_大量_调用（比如 40 次），那么它可能过于复杂，难以解决。他们利用这个来选择最佳推理路径，就像选择最清晰的小径一样。

思维导图是魔法
那个知识图谱？对于棘手的逻辑来说，它是救命稻草。在狼人游戏中，它跟踪了每轮谁说了什么，识别出狼人。对于谜题，它迅速理清了混乱。这就像给人工智能一个大脑，让它看到连接。

它接下来会去哪里？

研究人员认为这只是个开始。

他们正在考虑通过使其更具适应性来添加图像或实时数据的工具。

他们还可能通过强化学习对其进行调整——利用工具调用模式来使其更聪明。想象一下一个不断变得更擅长选择合适助手的人工智能！

你为什么应该关心

那么，这有什么大不了的？

我认为代理型RAR不仅仅是回答“2+2等于多少？”

它正在处理人类所面临的任务——投资、治疗甚至游戏。

所以这就像是有一个在研究、数学和逻辑方面都很厉害的朋友，三者合而为一。

未来，这可能会出现在我们所有人都使用的应用程序或工具中，让生活更轻松，决策更精准。

好吧，重点是：

检索增强生成适合获取信息，但代理型RAR更进一步。

通过它的代码代理、搜索代理和思维导图魔法，它像专业人士一样推理问题。

它在击败其他人工智能，有时甚至智胜专家，为更疯狂的事情铺平道路。

下次你和人工智能聊天时，想象一下这个在幕后的小团队——挺不错的，对吧？

来源:
https://arxiv.org/abs/2502.04644

提升ai智能：agentic Rar的革命性升级与rag的对比分析

RAG 到底是什么？

为什么我们需要更好的东西

认识代理型RAR

它是如何在实践中工作的？

现实生活中的示例展示

选择投资

帮助医生

破解谜语

玩狼人杀

它真的有多好？

什么让它运转？

它接下来会去哪里？

你为什么应该关心

Tags :

Share :

Related Posts

结合chatgpt-o3-mini与perplexity Deep Research的3步提示：提升论文写作质量的终极指南

让 Excel 过时的 10 种 Ai 工具：实现数据分析自动化，节省手工作业时间

使用 ChatGPT 搜索网络功能的 10 种创意方法

掌握Ai代理：解密Google革命性白皮书的10个关键问题解答

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

揭开真相！深度探悉DeepSeek AI的十大误区，您被误导了吗？