Type something to search...
AI新时代来临!rStar、SimRAG、mR2AG三大创新技术让你惊叹不已!

AI新时代来临!rStar、SimRAG、mR2AG三大创新技术让你惊叹不已!

本文是这个引人入胜的系列中的第24篇。

今天,我们将探讨人工智能中的三个引人入胜的话题,分别是:

  • rStar:两个思维,一个解决方案
  • SimRAG:一个通过生成和回答自己问题来自我提升的学生
  • mR2AG:基于知识的视觉问答智能导航系统

rStar: 两个思维,一个解决方案

开源代码: https://github.com/zhentingqi/rStar/

本文将首先探讨rStar的原理。

尽管rStar系列最近更新了rStar-math,我们将逐步进行。

生动描述

rStar 可以看作是一个过程,其中两个学生一起解决数学问题:

第一个学生(生成器)探索解决问题的不同方法,比如在树状图上绘制多个解决路径(蒙特卡罗树搜索 (MCTS))。第二个学生(判别器)审查每一步以确保其正确性,就像检查同学的草稿一样。通过相互验证,他们缩小了最可能正确的解决方案。

这是一种协作方法,结合了头脑风暴和审查,以分解复杂问题并找到最佳解决方案。

概述

rStar 的主要过程如图 1 所示:

  1. 一个自生成器增强目标小型语言模型 (SLM),利用 MCTS 创建潜在推理路径。
  2. 鉴别器使用另一个 SLM,根据部分提示对每条路径提供无监督反馈。
  3. 基于这些反馈,目标 SLM 选择最终推理路径作为解决方案。

图 1:自我对弈的相互推理是一个生成-鉴别过程。 [来源]。

在 MCTS 过程中,如图 2 所示,通过增强目标 SLM 为给定问题逐步构建搜索树。

Image 14

图 2:一个示例说明自生成器的过程。从上到下突出显示的节点构成完整的推理轨迹。给定一个问题,MCTS 增强目标 SLM 探索丰富的人类般推理行动空间,并根据当前状态生成下一步。 [来源]。

根节点表示问题 x,而每条边表示一个动作 a。每个子节点是目标 SLM 在相应动作下生成的中间步骤 s。从根节点到叶节点(表示为 sd,也称为终端节点)的路径形成候选解决轨迹 t = x ⊕ s1 ⊕ s2 ⊕ … ⊕ sd。

从搜索树中,可以提取一组解决轨迹。目标是找到能够到达给定问题正确答案的轨迹。

MCTS: 奖励

奖励函数通过评估动作来指导树的扩展。为了使其对SLMs简单有效,避免了自我奖励的中间节点和外部监督。受到AlphaGo的启发,节点根据其对最终正确答案的贡献进行评分,频繁成功的动作会获得更高的奖励。

最初,所有未探索的节点都有 ( Q(s_i, a_i) = 0 ),导致随机扩展。当到达终端节点 ( n_d ) 时,其奖励 ( Q(s_d, a_d) ) 由其是否产生正确答案来决定。该奖励随后沿着轨迹反向传播,更新中间节点。最终奖励基于自一致性多数投票信心。

MCTS: 选择

从根节点开始,蒙特卡罗树搜索通过选择、扩展、模拟和反向传播进行搜索。模拟使用默认的展开策略,多次展开可以改善奖励估计。为了平衡探索和利用,UCT(应用于树的上置信界)指导节点选择,数学表示为:

Image 15

评论

rStar 以其创新的方法脱颖而出,结合了 不需要微调的小型语言模型,使其具有成本效益。 我能感受到 AlphaGo Zero 自我对弈 的理念在其中。

此外,其开源代码全面且文档齐全。

然而,我有两个担忧:

  1. rStar 提供了丰富的动作空间(例如 A1、A3 等)来生成推理路径,使生成器能够尝试不同的推理方法。尽管动作空间丰富,但其选择和执行仍然是 手动设计的,缺乏针对不同任务和场景的动态调整。这可能限制算法的通用性和适应性。

  2. 在 rStar 的推理算法中,没有明确详细的终止条件,推理过程的停止似乎依赖于外部配置,例如模拟次数或计算时间限制。为了优化其在实际应用中的效率,明确且灵活的终止条件是必不可少的,尤其是在推理空间较大或计算资源有限的情况下。

SimRAG: A Self-Improving Student that Learns by Generating and Answering Its Own Questions

Vivid Description

想象一下,一个学生在学习时不仅仅是阅读书籍,而是积极地创造问题来测试他们的理解。这种“自我提问”的方法帮助学生更深入地理解书本。

SimRAG 就像这样的学生,利用未标记的数据生成问题和答案,然后使用这些自创的“问题”和“答案”进一步提高其学习效果。

概述

从一般领域适应到 专业领域如科学或医学时,现有的RAG系统面临着分布转移和数据稀缺等挑战。

SimRAG是一种自我改进的方法,使模型能够在专业领域生成高质量的问题-答案对,同时提升模型性能。

Image 16

图3:SimRAG的两阶段微调框架。[来源]。

如图3所示,SimRAG由两个阶段组成:

  1. 在与检索相关的数据上微调模型,包括遵循指令、问答和搜索相关任务。
  2. 通过从语料库中提取候选答案生成伪标记元组,然后基于文档和答案生成候选问题。LLM在通过往返一致性过滤的伪标记示例上进一步微调。

评论

SimRAG的实现方法实际上是微调。关键思想是第二阶段的微调数据是通过自监督过程和往返一致性过滤获得的。

在我看来,重要的是要注意生成的伪标签可能不准确、不一致,或无法完全匹配真实答案。因此,有必要引入更多的质量控制机制。

mR2AG: 基于知识的视觉问答智能导航系统

生动描述

mR2AG 像一个智能导航系统,具有两个创新:

  • 检索-反思 就像系统在问:“你想开车还是散步?”如果你只是探索附近,那么你不需要远处的路线指引。
  • 相关性-反思 就像系统为你的需求选择最佳路线,突出关键地标,而不会用不必要的细节让你感到困扰。

总之,mR2AG 通过规划路线并消除干扰,帮助你快速高效地到达目的地(答案)。

概述

如图4所示,当前视觉依赖和知识基础的视觉问答(VQA)任务的方法如下:

  • 多模态LLMs:使用图像和问题输入,但在最近的知识基础VQA任务中表现不佳
  • 多模态RAG:不必要的检索;糟糕的证据识别;复杂的过滤机制

Image 17

图4. 视觉依赖和知识基础VQA任务的不同方法比较。[来源]。

因此,一个自然的想法是,我们是否可以自适应地确定检索的必要性,并有效定位有用的上下文,就像图4中Q2的P3,这正是mR2AG背后的概念。

Image 18

图5. mR2AG框架概述。(a1) 带检索的mR2AG:该过程包括:a) 检索反思以确定检索的必要性;b) 相关性反思以识别证据段落;c) 后处理多个潜在答案。(a2) 不带检索的mR2AG:当检索不必要时的生成过程。(b) 天真的mRAG:没有反思的基线方法。

如图5所示,mR2AG管道分为三个阶段:

  • 检索反思:根据查询的性质确定外部知识检索是否必要;这个想法类似于self-RAG
  • 相关性反思:过滤检索到的段落,以定位生成答案所需的最相关证据。
  • 答案后处理:来自多个段落的答案根据综合检索、相关性和置信度评分进行排名。

评论

self-RAG 一样,mR2AG 使用模型微调将简单的决策制定和反思机制纳入其工作流程。

虽然 mR2AG 显示出强劲的结果,但在我看来,以下问题仍然存在:

  • 一些问题可能需要视觉信息和知识检索(例如“这张图片中动物的自然栖息地是什么?”)。mR2AG 能否准确判断这些模糊的边界?
  • 评分系统将入门级、段落级和答案级分数相乘,但关于权重优化和低个体分数可能导致的潜在排名偏差仍然存在疑问。这些分数之间的相对权重是如何确定的?这些权重在不同任务中是否普遍适用?

Related Posts

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

AI 研究报告和论文写作 合并两个系统指令以获得两个模型的最佳效果 Perplexity AI 的 Deep Research 工具提供专家级的研究报告,而 OpenAI 的 ChatGPT-o3-mini-high 擅长推理。我发现你可以将它们结合起来生成令人难以置信的论文,这些论文比任何一个模型单独撰写的都要好。你只需要将这个一次性提示复制到 **

阅读更多
让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

Non members click here作为一名软件开发人员,多年来的一个发现总是让我感到惊讶,那就是人们还在 Excel

阅读更多
使用 ChatGPT 搜索网络功能的 10 种创意方法

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如,提示和输出 你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务,而不仅仅是基本的网络搜索吗? 对于那些不知道的人,ChatGPT 新的“搜索网络”功能提供实时信息。 截至撰写此帖时,该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

阅读更多
掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

10 个常见问题解答 本文是我推出的一个名为“10 个常见问题解答”的新系列的一部分。在本系列中,我旨在通过回答关于该主题的十个最常见问题来分解复杂的概念。我的目标是使用简单的语言和相关的类比,使这些想法易于理解。 图片来自 [Solen Feyissa](https://unsplash.com/@solenfeyissa?utm_source=medium&utm_medi

阅读更多
在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和科技这样一个动态的行业中,保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析,还是希望通过人工智能转变传统领域如法律,这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表,可以助力你的职业发展,并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

阅读更多
揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

在AI军备竞赛中分辨事实与虚构 DeepSeek AI真的是它所宣传的游戏规则改变者,还是仅仅聪明的营销和战略炒作?👀 虽然一些人将其视为AI效率的革命性飞跃,但另一些人则认为它的成功建立在借用(甚至窃取的)创新和可疑的做法之上。传言称,DeepSeek的首席执行官在疫情期间像囤积卫生纸一样囤积Nvidia芯片——这只是冰山一角。 从其声称的550万美元培训预算到使用Open

阅读更多
Type something to search...