
提升ai智能:agentic Rar的革命性升级与rag的对比分析
Created by me using canva
嘿,大家好!
所以,我有一些有趣的研究想通过这篇文章来聊聊。
基本上,这一切都关于我们如何让人工智能变得更聪明,特别是在解决问题和给我们更好答案方面。
你可能以前用过聊天机器人或人工智能助手,对吧?
好吧,在2024年甚至2025年初,有一个叫做检索增强生成(RAG)的系统,它真的是一个游戏规则的改变者。
现在在2025年,一些来自牛津大学的研究人员正在将其升级为一种叫做代理型RAR的东西。
这就像检索增强生成(RAG)获得了超级能力的提升。
让我简单地为你解释一下。
让我们深入探讨一下!!
RAG 到底是什么?
对于那些仍然不知道 RAG 是什么的人,想象一下:
你问一个人工智能,
“嘿,巴西的人口是多少?”
在 RAG 之前,它只能根据训练时学到的、可能已经过时的信息进行猜测。
但有了 RAG,就好像人工智能有了一部手机——它可以快速从数据库或网络上查找最新的信息并说,
“哦,2024 年大约是 2.03 亿。”
这就是 RAG 的酷炫之处——它获取实时信息,使答案更准确。
就像给人工智能一本图书馆卡,可以获取所需的任何信息。
但这里有个问题:
RAG 适合简单的事情,比如事实或快速查找。
但如果你问它一些更棘手的问题——比如
“我应该投资这只股票吗?”
那么它可以提取一些数据,但在推理所有步骤以给出一个可靠答案方面并不擅长。
这就是这个新的 代理型RAR 概念的用武之地,它的感觉完全不同。
为什么我们需要更好的东西
所以,检索增强生成是好的,但它有局限性。
想象一下你在问,
“这个病人最好的治疗方法是什么?”
检索增强生成可能会找到一些医学论文,但它并不会真正连接各个点——比如病人需要多少氧气,或者最新的研究对呼吸机的看法。
它只是把信息扔给你,让你自己去理解。
对于任何需要更深入思考的事情,比如多步骤决策或专家级问题,检索增强生成就显得有些基础了。
这就是为什么研究人员说
“让我们把这个提升到一个新水平!”
认识代理型RAR
代理型RAR就像是检索增强生成的更聪明的表亲。
它不仅仅是获取信息,而是使用一组小助手——称为代理——来解决问题。
这些代理就像专家:一个是编码员,一个是搜索员,还有一个是组织者。
因此,他们一起帮助人工智能更好地推理。
以下是阵容:
- 代码代理:这个是你的数学高手。需要计算某个东西——比如投资的利润?它会写出一些Python代码,然后运行它并返回数字。例如,它可能会说:“选项A给你7%的利润,选项B只有2%。”
- 搜索代理:可以把它想象成你的谷歌大师。它在线跳跃,找到实时信息——比如竞争对手在股市上的表现或最新的医疗指南——并将其带回桌面。
- 思维导图代理:这是组织者,超级酷。它获取其他代理的信息并构建一个“知识图谱”——基本上是一个显示所有事物如何连接的地图。就像在白板上画出一个想法的网络,以跟踪复杂的内容。
所以,当你问人工智能一些棘手的问题时,它不仅仅是独自思考——它会召唤这些代理来协助,然后利用他们的工作来找出最佳答案。
这里有一个流程图,便于理解。
Created by me
它是如何在实践中工作的?
假设你在想
“我应该把钱放在哪里——选项A还是选项B?”
使用旧式的检索增强生成,你只会得到一些基本数据,比如几个统计数据,仅此而已。
但代理型RAR呢?它有一个完整的游戏计划。
首先,代码代理进行数据分析。
它快速计算并说
“用你的$10,000,选项A可以赚到$700,选项B仅$200。”
然后,搜索代理在线检查,
“嘿,选项B的市场不稳定——竞争对手正在崩溃。”
与此同时,思维导图代理将所有这些——你的预算、利润和市场氛围——绘制成知识图谱。它展示了你的风险承受能力如何与选项A的稳定性相关,或选项B如何与市场趋势挂钩。
人工智能查看这个图表并说:“好的,选项A是你最好的选择——它目前有稳定的收益和较低的风险。”
它不仅仅是在输出事实——它像金融顾问一样进行推理。
现实生活中的示例展示
在我看来,它在现实世界中的表现如下:
选择投资
您询问了两个投资选项。代码代理计算了您的潜在利润——选项 A 为 7%,选项 B 为 2%。搜索代理发现选项 B 所在行业由于新竞争而放缓。思维导图代理将所有内容连接起来——您的目标、数字和趋势。然后人工智能说:“坚持选项 A;它更安全,回报更高。”
帮助医生
想象一下,一位医生需要为患者设置最佳的氧气浓度。代码代理确定了完美的氧气水平(例如,40% F iO2)。然后,检索增强生成代理从医学研究中提取最新的PEEP值(如8 cmH2O),思维导图将其结合起来——患者状况、氧气需求、呼吸机设置。人工智能建议:“将氧气设置为40%和8 PEEP,以获得最佳效果。” 这就像在几秒钟内拥有一个研究团队。
破解谜语
有一个棘手的谜语:“一个外科医生说,‘我不能给这个孩子动手术;他是我的儿子!’这个外科医生是谁?”大多数人工智能由于奇怪的偏见而猜错而陷入困境。但代理型RAR的思维导图将其映射出来——外科医生、孩子、父亲——并看到了明显的答案:外科医生是爸爸。简单,但它在其他人失败的地方击中了要点。
玩狼人杀
在研究中,研究人员甚至在狼人杀这个推理游戏中进行了测试。人工智能使用思维导图跟踪玩家的陈述,并找出谁在撒谎。它在对抗专业玩家时获胜率达72%——对一台机器来说,真是相当不错!
它真的有多好?
牛津团队对这个进行了严格测试。
他们在 GPQA 数据集上进行了测试——这是超难的博士级物理、化学和生物问题。
以下是它的表现:
- 物理:88% 正确
- 化学:58% 正确
- 生物:79% 正确
这超越了许多其他人工智能,甚至包括像 Gemini 2.0 或 OpenAI 的 o1 这样的高级人工智能。
在更大规模的问题集上,它也击败了人类专家——物理方面 75% 对比物理学家的 58%,化学方面 53% 对比化学家的 73%(好吧,化学家在这方面仍然胜出),生物方面 73% 对比生物学家的 69%。
关键是,它在专业人士面前表现得很好!
他们还尝试了现实世界的任务——如财务、医学和法律问题,这些问题需要博士花费 20 分钟进行研究。代理型 RAR 在这些问题上的表现超过了 Gemini 的深度研究工具。
它不仅快速,而且 优秀。
什么让它运转?
研究表明,使其特别的原因如下:
保持简单
他们发现,搜索和编码这两个工具对于大多数工作来说已经足够。添加更多可能会搞砸事情,就像厨房里太多厨师一样。但对于图表或医学扫描等事情,额外的工具可能会在后期有所帮助。
团队合作至关重要
将任务分配给代理型可以让主要的人工智能保持专注。它不是自己编码,而是将这项工作交给代码代理。就像是,“你负责数学;我来思考这个。”这样一切都更加顺畅。
工具调用讲述了一个故事
对于一个问题,使用更多工具——比如 5 次调用——意味着更好的答案。但如果一个问题需要_大量_调用(比如 40 次),那么它可能过于复杂,难以解决。他们利用这个来选择最佳推理路径,就像选择最清晰的小径一样。
思维导图是魔法
那个知识图谱?对于棘手的逻辑来说,它是救命稻草。在狼人游戏中,它跟踪了每轮谁说了什么,识别出狼人。对于谜题,它迅速理清了混乱。这就像给人工智能一个大脑,让它看到连接。
它接下来会去哪里?
研究人员认为这只是个开始。
他们正在考虑通过使其更具适应性来添加图像或实时数据的工具。
他们还可能通过强化学习对其进行调整——利用工具调用模式来使其更聪明。想象一下一个不断变得更擅长选择合适助手的人工智能!
你为什么应该关心
那么,这有什么大不了的?
我认为代理型RAR不仅仅是回答“2+2等于多少?”
它正在处理人类所面临的任务——投资、治疗甚至游戏。
所以这就像是有一个在研究、数学和逻辑方面都很厉害的朋友,三者合而为一。
未来,这可能会出现在我们所有人都使用的应用程序或工具中,让生活更轻松,决策更精准。
好吧,重点是:
检索增强生成适合获取信息,但代理型RAR更进一步。
通过它的代码代理、搜索代理和思维导图魔法,它像专业人士一样推理问题。
它在击败其他人工智能,有时甚至智胜专家,为更疯狂的事情铺平道路。
下次你和人工智能聊天时,想象一下这个在幕后的小团队——挺不错的,对吧?