Type something to search...
提升ai智能:agentic Rar的革命性升级与rag的对比分析

提升ai智能:agentic Rar的革命性升级与rag的对比分析

Created by me using canva

嘿,大家好!

所以,我有一些有趣的研究想通过这篇文章来聊聊。

基本上,这一切都关于我们如何让人工智能变得更聪明,特别是在解决问题和给我们更好答案方面。

你可能以前用过聊天机器人或人工智能助手,对吧?

好吧,在2024年甚至2025年初,有一个叫做检索增强生成(RAG)的系统,它真的是一个游戏规则的改变者。

现在在2025年,一些来自牛津大学的研究人员正在将其升级为一种叫做代理型RAR的东西。

这就像检索增强生成(RAG)获得了超级能力的提升。

让我简单地为你解释一下。

让我们深入探讨一下!!

RAG 到底是什么?

对于那些仍然不知道 RAG 是什么的人,想象一下:

你问一个人工智能,

“嘿,巴西的人口是多少?”

在 RAG 之前,它只能根据训练时学到的、可能已经过时的信息进行猜测。

但有了 RAG,就好像人工智能有了一部手机——它可以快速从数据库或网络上查找最新的信息并说,

“哦,2024 年大约是 2.03 亿。”

这就是 RAG 的酷炫之处——它获取实时信息,使答案更准确。

就像给人工智能一本图书馆卡,可以获取所需的任何信息。

但这里有个问题:

RAG 适合简单的事情,比如事实或快速查找。

但如果你问它一些更棘手的问题——比如

“我应该投资这只股票吗?”

那么它可以提取一些数据,但在推理所有步骤以给出一个可靠答案方面并不擅长。

这就是这个新的 代理型RAR 概念的用武之地,它的感觉完全不同。

为什么我们需要更好的东西

所以,检索增强生成是好的,但它有局限性。

想象一下你在问,

“这个病人最好的治疗方法是什么?”

检索增强生成可能会找到一些医学论文,但它并不会真正连接各个点——比如病人需要多少氧气,或者最新的研究对呼吸机的看法。

它只是把信息扔给你,让你自己去理解。

对于任何需要更深入思考的事情,比如多步骤决策或专家级问题,检索增强生成就显得有些基础了。

这就是为什么研究人员说

“让我们把这个提升到一个新水平!”

认识代理型RAR

代理型RAR就像是检索增强生成的更聪明的表亲。

它不仅仅是获取信息,而是使用一组小助手——称为代理——来解决问题。

这些代理就像专家:一个是编码员,一个是搜索员,还有一个是组织者。

因此,他们一起帮助人工智能更好地推理。

以下是阵容:

  • 代码代理:这个是你的数学高手。需要计算某个东西——比如投资的利润?它会写出一些Python代码,然后运行它并返回数字。例如,它可能会说:“选项A给你7%的利润,选项B只有2%。”
  • 搜索代理:可以把它想象成你的谷歌大师。它在线跳跃,找到实时信息——比如竞争对手在股市上的表现或最新的医疗指南——并将其带回桌面。
  • 思维导图代理:这是组织者,超级酷。它获取其他代理的信息并构建一个“知识图谱”——基本上是一个显示所有事物如何连接的地图。就像在白板上画出一个想法的网络,以跟踪复杂的内容。

所以,当你问人工智能一些棘手的问题时,它不仅仅是独自思考——它会召唤这些代理来协助,然后利用他们的工作来找出最佳答案。

这里有一个流程图,便于理解。

Created by me

它是如何在实践中工作的?

假设你在想

“我应该把钱放在哪里——选项A还是选项B?”

使用旧式的检索增强生成,你只会得到一些基本数据,比如几个统计数据,仅此而已。

但代理型RAR呢?它有一个完整的游戏计划。

首先,代码代理进行数据分析。

它快速计算并说

“用你的$10,000,选项A可以赚到$700,选项B仅$200。”

然后,搜索代理在线检查,

“嘿,选项B的市场不稳定——竞争对手正在崩溃。”

与此同时,思维导图代理将所有这些——你的预算、利润和市场氛围——绘制成知识图谱。它展示了你的风险承受能力如何与选项A的稳定性相关,或选项B如何与市场趋势挂钩。

人工智能查看这个图表并说:“好的,选项A是你最好的选择——它目前有稳定的收益和较低的风险。”

它不仅仅是在输出事实——它像金融顾问一样进行推理。

现实生活中的示例展示

在我看来,它在现实世界中的表现如下:

选择投资

您询问了两个投资选项。代码代理计算了您的潜在利润——选项 A 为 7%,选项 B 为 2%。搜索代理发现选项 B 所在行业由于新竞争而放缓。思维导图代理将所有内容连接起来——您的目标、数字和趋势。然后人工智能说:“坚持选项 A;它更安全,回报更高。”

帮助医生

想象一下,一位医生需要为患者设置最佳的氧气浓度。代码代理确定了完美的氧气水平(例如,40% F iO2)。然后,检索增强生成代理从医学研究中提取最新的PEEP值(如8 cmH2O),思维导图将其结合起来——患者状况、氧气需求、呼吸机设置。人工智能建议:“将氧气设置为40%和8 PEEP,以获得最佳效果。” 这就像在几秒钟内拥有一个研究团队。

破解谜语

有一个棘手的谜语:“一个外科医生说,‘我不能给这个孩子动手术;他是我的儿子!’这个外科医生是谁?”大多数人工智能由于奇怪的偏见而猜错而陷入困境。但代理型RAR的思维导图将其映射出来——外科医生、孩子、父亲——并看到了明显的答案:外科医生是爸爸。简单,但它在其他人失败的地方击中了要点。

玩狼人杀

在研究中,研究人员甚至在狼人杀这个推理游戏中进行了测试。人工智能使用思维导图跟踪玩家的陈述,并找出谁在撒谎。它在对抗专业玩家时获胜率达72%——对一台机器来说,真是相当不错!

它真的有多好?

牛津团队对这个进行了严格测试。

他们在 GPQA 数据集上进行了测试——这是超难的博士级物理、化学和生物问题。

以下是它的表现:

  • 物理:88% 正确
  • 化学:58% 正确
  • 生物:79% 正确

这超越了许多其他人工智能,甚至包括像 Gemini 2.0 或 OpenAI 的 o1 这样的高级人工智能。

在更大规模的问题集上,它也击败了人类专家——物理方面 75% 对比物理学家的 58%,化学方面 53% 对比化学家的 73%(好吧,化学家在这方面仍然胜出),生物方面 73% 对比生物学家的 69%。

关键是,它在专业人士面前表现得很好!

他们还尝试了现实世界的任务——如财务、医学和法律问题,这些问题需要博士花费 20 分钟进行研究。代理型 RAR 在这些问题上的表现超过了 Gemini 的深度研究工具。

它不仅快速,而且 优秀

什么让它运转?

研究表明,使其特别的原因如下:

保持简单
他们发现,搜索和编码这两个工具对于大多数工作来说已经足够。添加更多可能会搞砸事情,就像厨房里太多厨师一样。但对于图表或医学扫描等事情,额外的工具可能会在后期有所帮助。

团队合作至关重要
将任务分配给代理型可以让主要的人工智能保持专注。它不是自己编码,而是将这项工作交给代码代理。就像是,“你负责数学;我来思考这个。”这样一切都更加顺畅。

工具调用讲述了一个故事
对于一个问题,使用更多工具——比如 5 次调用——意味着更好的答案。但如果一个问题需要_大量_调用(比如 40 次),那么它可能过于复杂,难以解决。他们利用这个来选择最佳推理路径,就像选择最清晰的小径一样。

思维导图是魔法
那个知识图谱?对于棘手的逻辑来说,它是救命稻草。在狼人游戏中,它跟踪了每轮谁说了什么,识别出狼人。对于谜题,它迅速理清了混乱。这就像给人工智能一个大脑,让它看到连接。

它接下来会去哪里?

研究人员认为这只是个开始。

他们正在考虑通过使其更具适应性来添加图像或实时数据的工具。

他们还可能通过强化学习对其进行调整——利用工具调用模式来使其更聪明。想象一下一个不断变得更擅长选择合适助手的人工智能!

你为什么应该关心

那么,这有什么大不了的?

我认为代理型RAR不仅仅是回答“2+2等于多少?”

它正在处理人类所面临的任务——投资、治疗甚至游戏。

所以这就像是有一个在研究、数学和逻辑方面都很厉害的朋友,三者合而为一。

未来,这可能会出现在我们所有人都使用的应用程序或工具中,让生活更轻松,决策更精准。

好吧,重点是:

检索增强生成适合获取信息,但代理型RAR更进一步。

通过它的代码代理、搜索代理和思维导图魔法,它像专业人士一样推理问题。

它在击败其他人工智能,有时甚至智胜专家,为更疯狂的事情铺平道路。

下次你和人工智能聊天时,想象一下这个在幕后的小团队——挺不错的,对吧?

来源:
https://arxiv.org/abs/2502.04644

Related Posts

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

AI 研究报告和论文写作 合并两个系统指令以获得两个模型的最佳效果 Perplexity AI 的 Deep Research 工具提供专家级的研究报告,而 OpenAI 的 ChatGPT-o3-mini-high 擅长推理。我发现你可以将它们结合起来生成令人难以置信的论文,这些论文比任何一个模型单独撰写的都要好。你只需要将这个一次性提示复制到 **

阅读更多
让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

Non members click here作为一名软件开发人员,多年来的一个发现总是让我感到惊讶,那就是人们还在 Excel

阅读更多
使用 ChatGPT 搜索网络功能的 10 种创意方法

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如,提示和输出 你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务,而不仅仅是基本的网络搜索吗? 对于那些不知道的人,ChatGPT 新的“搜索网络”功能提供实时信息。 截至撰写此帖时,该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

阅读更多
掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

10 个常见问题解答 本文是我推出的一个名为“10 个常见问题解答”的新系列的一部分。在本系列中,我旨在通过回答关于该主题的十个最常见问题来分解复杂的概念。我的目标是使用简单的语言和相关的类比,使这些想法易于理解。 图片来自 [Solen Feyissa](https://unsplash.com/@solenfeyissa?utm_source=medium&utm_medi

阅读更多
在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和科技这样一个动态的行业中,保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析,还是希望通过人工智能转变传统领域如法律,这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表,可以助力你的职业发展,并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

阅读更多
揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

在AI军备竞赛中分辨事实与虚构 DeepSeek AI真的是它所宣传的游戏规则改变者,还是仅仅聪明的营销和战略炒作?👀 虽然一些人将其视为AI效率的革命性飞跃,但另一些人则认为它的成功建立在借用(甚至窃取的)创新和可疑的做法之上。传言称,DeepSeek的首席执行官在疫情期间像囤积卫生纸一样囤积Nvidia芯片——这只是冰山一角。 从其声称的550万美元培训预算到使用Open

阅读更多
Type something to search...