AI新时代来临！rStar、SimRAG、mR2AG三大创新技术让你惊叹不已！

Rifx.Online
Machine Learning , Natural Language Processing , AI Applications
05 Mar, 2025

本文是这个引人入胜的系列中的第24篇。

今天，我们将探讨人工智能中的三个引人入胜的话题，分别是：

rStar：两个思维，一个解决方案
SimRAG：一个通过生成和回答自己问题来自我提升的学生
mR2AG：基于知识的视觉问答智能导航系统

rStar: 两个思维，一个解决方案

开源代码: https://github.com/zhentingqi/rStar/

本文将首先探讨rStar的原理。

尽管rStar系列最近更新了rStar-math，我们将逐步进行。

生动描述

rStar 可以看作是一个过程，其中两个学生一起解决数学问题：

第一个学生（生成器）探索解决问题的不同方法，比如在树状图上绘制多个解决路径（蒙特卡罗树搜索 (MCTS)）。第二个学生（判别器）审查每一步以确保其正确性，就像检查同学的草稿一样。通过相互验证，他们缩小了最可能正确的解决方案。

这是一种协作方法，结合了头脑风暴和审查，以分解复杂问题并找到最佳解决方案。

概述

rStar 的主要过程如图 1 所示：

一个自生成器增强目标小型语言模型 (SLM)，利用 MCTS 创建潜在推理路径。
鉴别器使用另一个 SLM，根据部分提示对每条路径提供无监督反馈。
基于这些反馈，目标 SLM 选择最终推理路径作为解决方案。

图 1：自我对弈的相互推理是一个生成-鉴别过程。 [来源]。

在 MCTS 过程中，如图 2 所示，通过增强目标 SLM 为给定问题逐步构建搜索树。

图 2：一个示例说明自生成器的过程。从上到下突出显示的节点构成完整的推理轨迹。给定一个问题，MCTS 增强目标 SLM 探索丰富的人类般推理行动空间，并根据当前状态生成下一步。 [来源]。

根节点表示问题 x，而每条边表示一个动作 a。每个子节点是目标 SLM 在相应动作下生成的中间步骤 s。从根节点到叶节点（表示为 sd，也称为终端节点）的路径形成候选解决轨迹 t = x ⊕ s1 ⊕ s2 ⊕ … ⊕ sd。

从搜索树中，可以提取一组解决轨迹。目标是找到能够到达给定问题正确答案的轨迹。

MCTS: 奖励

奖励函数通过评估动作来指导树的扩展。为了使其对SLMs简单有效，避免了自我奖励的中间节点和外部监督。受到AlphaGo的启发，节点根据其对最终正确答案的贡献进行评分，频繁成功的动作会获得更高的奖励。

最初，所有未探索的节点都有 ( Q(s_i, a_i) = 0 )，导致随机扩展。当到达终端节点 ( n_d ) 时，其奖励 ( Q(s_d, a_d) ) 由其是否产生正确答案来决定。该奖励随后沿着轨迹反向传播，更新中间节点。最终奖励基于自一致性多数投票信心。

MCTS: 选择

从根节点开始，蒙特卡罗树搜索通过选择、扩展、模拟和反向传播进行搜索。模拟使用默认的展开策略，多次展开可以改善奖励估计。为了平衡探索和利用，UCT（应用于树的上置信界）指导节点选择，数学表示为：

rStar 以其创新的方法脱颖而出，结合了 不需要微调的小型语言模型，使其具有成本效益。 我能感受到 AlphaGo Zero 自我对弈的理念在其中。

此外，其开源代码全面且文档齐全。

然而，我有两个担忧：

rStar 提供了丰富的动作空间（例如 A1、A3 等）来生成推理路径，使生成器能够尝试不同的推理方法。尽管动作空间丰富，但其选择和执行仍然是 手动设计的，缺乏针对不同任务和场景的动态调整。这可能限制算法的通用性和适应性。
在 rStar 的推理算法中，没有明确详细的终止条件，推理过程的停止似乎依赖于外部配置，例如模拟次数或计算时间限制。为了优化其在实际应用中的效率，明确且灵活的终止条件是必不可少的，尤其是在推理空间较大或计算资源有限的情况下。

SimRAG: A Self-Improving Student that Learns by Generating and Answering Its Own Questions

Vivid Description

想象一下，一个学生在学习时不仅仅是阅读书籍，而是积极地创造问题来测试他们的理解。这种“自我提问”的方法帮助学生更深入地理解书本。

SimRAG 就像这样的学生，利用未标记的数据生成问题和答案，然后使用这些自创的“问题”和“答案”进一步提高其学习效果。

概述

当从一般领域适应到 专业领域如科学或医学时，现有的RAG系统面临着分布转移和数据稀缺等挑战。

SimRAG是一种自我改进的方法，使模型能够在专业领域生成高质量的问题-答案对，同时提升模型性能。

图3：SimRAG的两阶段微调框架。[来源]。

如图3所示，SimRAG由两个阶段组成：

在与检索相关的数据上微调模型，包括遵循指令、问答和搜索相关任务。
通过从语料库中提取候选答案生成伪标记元组，然后基于文档和答案生成候选问题。LLM在通过往返一致性过滤的伪标记示例上进一步微调。

SimRAG的实现方法实际上是微调。关键思想是第二阶段的微调数据是通过自监督过程和往返一致性过滤获得的。

在我看来，重要的是要注意生成的伪标签可能不准确、不一致，或无法完全匹配真实答案。因此，有必要引入更多的质量控制机制。

mR2AG: 基于知识的视觉问答智能导航系统

生动描述

mR2AG 像一个智能导航系统，具有两个创新：

检索-反思 就像系统在问：“你想开车还是散步？”如果你只是探索附近，那么你不需要远处的路线指引。
相关性-反思 就像系统为你的需求选择最佳路线，突出关键地标，而不会用不必要的细节让你感到困扰。

总之，mR2AG 通过规划路线并消除干扰，帮助你快速高效地到达目的地（答案）。

概述

如图4所示，当前视觉依赖和知识基础的视觉问答（VQA）任务的方法如下：

多模态LLMs：使用图像和问题输入，但在最近的知识基础VQA任务中表现不佳
多模态RAG：不必要的检索；糟糕的证据识别；复杂的过滤机制

图4. 视觉依赖和知识基础VQA任务的不同方法比较。[来源]。

因此，一个自然的想法是，我们是否可以自适应地确定检索的必要性，并有效定位有用的上下文，就像图4中Q2的P3，这正是mR2AG背后的概念。

图5. mR2AG框架概述。(a1) 带检索的mR2AG：该过程包括：a) 检索反思以确定检索的必要性；b) 相关性反思以识别证据段落；c) 后处理多个潜在答案。(a2) 不带检索的mR2AG：当检索不必要时的生成过程。(b) 天真的mRAG：没有反思的基线方法。

如图5所示，mR2AG管道分为三个阶段：

检索反思：根据查询的性质确定外部知识检索是否必要；这个想法类似于self-RAG。
相关性反思：过滤检索到的段落，以定位生成答案所需的最相关证据。
答案后处理：来自多个段落的答案根据综合检索、相关性和置信度评分进行排名。

像 self-RAG 一样，mR2AG 使用模型微调将简单的决策制定和反思机制纳入其工作流程。

虽然 mR2AG 显示出强劲的结果，但在我看来，以下问题仍然存在：

一些问题可能需要视觉信息和知识检索（例如“这张图片中动物的自然栖息地是什么？”）。mR2AG 能否准确判断这些模糊的边界？
评分系统将入门级、段落级和答案级分数相乘，但关于权重优化和低个体分数可能导致的潜在排名偏差仍然存在疑问。这些分数之间的相对权重是如何确定的？这些权重在不同任务中是否普遍适用？

AI新时代来临！rStar、SimRAG、mR2AG三大创新技术让你惊叹不已！

本文是这个引人入胜的系列中的第24篇。

rStar: 两个思维，一个解决方案

生动描述

概述

MCTS: 奖励

MCTS: 选择

评论

SimRAG: A Self-Improving Student that Learns by Generating and Answering Its Own Questions

Vivid Description

概述

评论

mR2AG: 基于知识的视觉问答智能导航系统

生动描述

概述

评论

Tags :

Share :

Related Posts

结合chatgpt-o3-mini与perplexity Deep Research的3步提示：提升论文写作质量的终极指南

让 Excel 过时的 10 种 Ai 工具：实现数据分析自动化，节省手工作业时间

使用 ChatGPT 搜索网络功能的 10 种创意方法

掌握Ai代理：解密Google革命性白皮书的10个关键问题解答

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

揭开真相！深度探悉DeepSeek AI的十大误区，您被误导了吗？