解锁多文档代理RAG的力量：5种方式提升AI的上下文理解和准确性

Rifx.Online
Natural Language Processing , AI Applications , AI Research
05 Mar, 2025

了解 RAG 和多文档 Agent

检索增强生成 (RAG) 是一种通过允许语言模型访问和使用外部知识来增强语言模型的技术。RAG 模型不再仅仅依赖于其训练参数，而是可以从知识库中检索相关信息，以生成更准确和信息丰富的响应。

多文档 Agentic RAG 将这一概念进一步发展，使 AI Agent 能够同时处理多个文档。这种方法对于需要从各种来源（如学术研究、市场分析或法律文件审查）合成信息的任务特别有价值。

为什么多文档 Agentic RAG 是一个改变游戏规则的技术？

让我们了解一下为什么多文档 Agentic RAG 是一个改变游戏规则的技术。

更智能的上下文理解：想象一下，你有一个超级智能的助手，它不仅阅读一本书，而是阅读整个图书馆来回答你的问题。这就是增强的上下文理解的含义。通过分析多个文档，AI 可以拼凑出更完整的画面，给你真正捕捉大局的答案。
提高棘手任务的准确性：我们都玩过“连点成线”的游戏。多文档 Agentic RAG 做了类似的事情，但处理的是信息。通过连接来自各种来源的事实，它可以更精确地解决复杂的问题。这意味着更可靠的答案，尤其是在处理复杂主题时。
像专业人士一样处理信息过载：在当今世界，我们淹没在数据中。多文档 Agentic RAG 就像一个超级过滤器，筛选大量信息以找到真正相关的内容。就像拥有一支专家团队，全天候工作以消化和总结庞大的知识库。
可适应和可扩展的知识库：将此视为一个可以轻松学习和扩展的数字大脑。随着新信息的出现，多文档 Agentic RAG 可以无缝地将其整合进来。这意味着你的 AI 助手始终保持最新状态，准备好用最新鲜的信息解决最新的问题。

多文档 Agentic RAG 系统的关键优势

现在，我们将探讨多文档 Agentic RAG 系统的关键优势。

为学术研究提供动力：研究人员通常花费数周或数月的时间来合成数百篇论文中的信息。多文档 Agentic RAG 可以大大加快这一过程，帮助学者快速识别关键趋势、知识差距以及在大量文献中可能出现的突破。
彻底改变法律文件分析：律师处理大量的案件档案、合同和法律先例。这项技术可以迅速分析数千份文件，发现关键细节、不一致之处以及可能需要一个由人类团队花费数天或数周才能发现的相关判例法。
为市场情报提供涡轮增压：企业需要保持在趋势和竞争之前。多文档 Agentic RAG 可以持续扫描新闻文章、社交媒体和行业报告，提供实时见解，并帮助公司比以往更快地做出数据驱动的决策。
轻松浏览技术文档：对于工程师和 IT 专业人员来说，在庞大的技术文档中找到正确的信息就像大海捞针。这种由 AI 驱动的方法可以快速查明多个手册、故障排除指南和代码存储库中的相关部分，从而节省无数小时的挫败感。

多文档 Agentic RAG 的构建模块

想象一下，你正在构建一个超级智能的数字图书馆助手。这个助手可以阅读数千本书，理解复杂的问题，并使用来自多个来源的信息给你详细的答案。这本质上就是多文档 Agentic RAG 系统所做的事情。让我们分解一下实现这一目标的关键组件：

文档处理

将所有类型的文档（PDF、网页、Word 文件等）转换为我们的 AI 可以理解的格式。

创建嵌入

将处理后的文本转换为数值向量（数字序列），表示信息的含义和语境。

简单来说，想象一下为你的图书馆中的每个段落创建一个超浓缩的摘要，但你使用一个唯一的代码而不是单词。此代码以计算机可以快速比较和分析的方式捕获信息的本质。

索引

它创建了一个有效的结构来存储和检索这些嵌入。这就像为我们的数字图书馆创建一个世界上最高效的卡片目录。它允许我们的 AI 快速定位相关信息，而无需详细扫描每个文档。

检索

它使用查询（你的问题）从索引的嵌入中找到最相关的片段信息。当你提出一个问题时，此组件会通过我们的数字图书馆飞速检索，使用那个超级高效的卡片目录来提取所有可能相关的片段信息。

基于 Agent 的推理

AI Agent 在你的查询的上下文中解释检索到的信息，决定如何使用它来制定答案。这就像拥有一个天才的 AI Agent，它不仅可以找到正确的文档，还可以理解你问题的更深层含义。他们可以连接来自不同来源的点，并找出回答你的最佳方式。

生成

它根据 Agent 的推理和检索到的信息生成人类可读的答案。这是我们的天才 Agent 用清晰、简洁的语言向你解释他们的发现的地方。他们获取并分析了他们收集的所有复杂信息，并以直接回答你的问题的方式呈现出来。

这种强大的组合使多文档 Agentic RAG 系统能够提供见解和答案，这些见解和答案来自庞大的知识库，使其对于跨许多领域的复杂研究、分析和问题解决任务非常有用。

实现一个基本的多文档 Agentic RAG

让我们从构建一个可以处理三篇学术论文的简单 Agentic RAG 开始。我们将使用 llama_index 库，该库提供了用于构建 RAG 系统的强大工具。

步骤 1：安装所需的库

要开始构建您的 AI 代理，您需要安装必要的库。以下是设置您的环境的步骤：

安装 Python：

设置虚拟环境： 为您的项目创建一个虚拟环境以管理依赖项是一个好习惯。运行以下命令来设置虚拟环境：

安装 OpenAI API 和 LlamaIndex：

步骤 2：设置 API 密钥和环境变量

要使用 OpenAI API，您需要一个 API 密钥。请按照以下步骤设置您的 API 密钥：

获取 API 密钥： 在 OpenAI 网站上注册一个帐户，并从 API 部分获取您的 API 密钥。
设置环境变量： 将您的 API 密钥存储在环境变量中以确保其安全。将以下行添加到您的 .bashrc 或 .zshrc 文件（或为您的操作系统使用适当的方法）
```
export OPENAI_API_KEY='your_openai_api_key_here'
```
在您的代码中访问 API 密钥： 在您的 Python 代码中，导入必要的库，并使用 os 模块访问 API 密钥

步骤 3：下载文档

如前所述，我仅使用三篇论文来制作这个 agentic rag，我们稍后将在其他博客中将这个 agentic rag 扩展到更多论文。您可以选择使用您自己的文档。

步骤 4：创建向量和摘要工具

下面的函数 get_doc_tools 旨在创建两个工具：一个向量查询工具和一个摘要查询工具。这些工具可帮助使用基于代理的检索增强生成（RAG）方法查询和总结文档。以下是步骤及其说明。

加载文档并准备向量索引

该函数首先使用 SimpleDirectoryReader 加载文档，该函数获取提供的 file_path 并读取文档的内容。加载文档后，它将由 SentenceSplitter 处理，SentenceSplitter 将文档分成更小的块或节点，每个节点最多包含 1024 个字符。然后使用 VectorStoreIndex 对这些节点进行索引，VectorStoreIndex 是一种允许进行高效基于向量的查询的工具。稍后将使用此索引根据向量相似性对文档内容执行搜索，从而更轻松地检索相关信息。

定义向量查询函数

在这里，该函数定义了 vector_query，它负责回答有关文档的特定问题。该函数接受一个查询字符串和一个可选的页码列表。如果未提供页码，则查询整个文档。该函数首先检查是否提供了 page_numbers；如果没有，则默认为一个空列表。

然后，它创建与指定的页码相对应的元数据过滤器。这些过滤器有助于将搜索范围缩小到文档的特定部分。使用向量索引创建 query_engine，并将其配置为使用这些过滤器以及相似性阈值来查找最相关的结果。最后，该函数使用此引擎执行查询并返回响应。

创建向量查询工具

该函数的一部分创建了 vector_query_tool，这是一个将先前定义的 vector_query 函数链接到基于调用 get_doc_tools 时提供的 name 参数动态生成的名称的工具。

使用 FunctionTool.from_defaults 创建该工具，该工具会自动为其配置必要的默认值。现在可以使用此工具使用先前定义的函数对文档执行基于向量的查询。

创建摘要查询工具

在最后一部分中，该函数创建了一个用于总结文档的工具。首先，它从先前拆分和索引的节点创建 SummaryIndex。此索引专为总结任务而设计。然后，使用响应模式为 "tree_summarize" 创建 summary_query_engine，这允许该工具生成文档内容的简洁摘要。

最后，使用 QueryEngineTool.from_defaults 创建 summary_tool，该工具将查询引擎链接到基于 name 参数动态生成的名称。该工具还被赋予了一个描述，表明其用于与总结相关的查询的目的。现在可以使用此摘要工具根据用户查询生成文档的摘要。

调用函数为每篇论文构建工具

此代码处理每篇论文，并为每篇论文创建两个工具：一个用于语义搜索的向量工具和一个用于生成简洁摘要的摘要工具，在本例中为 6 个工具。

步骤 5：创建代理

前面我们为代理创建了要使用的工具，现在我们将使用 FunctionCallingAgentWorker 类创建我们的代理。我们将使用“gpt-3.5-turbo”作为我们的 llm。

该代理现在可以回答有关我们已处理的三篇论文的问题。

步骤 6：分析来自代理的响应

我们向我们的代理询问了来自这三篇论文的不同问题，这是它的响应。以下是它的工作原理的示例和说明。

Agent 与 LongLoRA 论文交互的解释

在本例中，我们查询了我们的 agent，以从三篇研究论文中提取特定信息，特别是关于 LongLoRA 研究中使用的评估数据集和结果。 agent 使用向量查询工具与文档交互，以下是它逐步处理信息的方式：

用户输入： 用户提出了两个关于 LongLoRA 评估方面的连续问题：首先是关于评估数据集，然后是关于结果。
Agent 的查询执行： agent 确定它需要专门搜索 LongLoRA 文档中关于评估数据集的信息。它使用 vector_tool_longlora 函数，该函数是专门为 LongLoRA 设置的向量查询工具。

评估数据集的函数输出： agent 从文档中检索相关部分，确定 LongLoRA 中使用的评估数据集是“PG19 测试拆分”，由于其长篇文本的性质，该数据集通常用于语言模型评估。
Agent 的第二次查询执行： 在第一个响应之后，agent 然后处理用户问题的第二部分，查询文档中关于 LongLoRA 的评估结果。

评估结果的函数输出： agent 返回详细结果，显示模型在更大的上下文大小方面如何在困惑度方面表现更好。它突出了关键发现，例如随着更大的上下文窗口和特定上下文长度（100k、65536 和 32768）的改进。它还注意到一个权衡，因为扩展模型在较小的上下文大小上会遇到一些困惑度下降，这归因于位置插值——这种模型中常见的限制。
最终的 LLM 响应： agent 将结果综合成一个简洁的响应，回答了关于数据集的初始问题。随后将对评估结果进行进一步的解释，总结性能发现及其影响。

挑战和考虑因素

虽然多文档 Agentic RAG 功能强大，但需要记住一些挑战：

可扩展性： 随着文档数量的增长，高效的索引和检索变得至关重要。
一致性： 确保 agent 在整合来自多个来源的信息时产生一致的响应。
偏差和准确性： 系统的输出仅与其输入文档和检索机制一样好。
计算资源： 处理和嵌入大量文档可能需要大量资源。

结论

多文档 Agentic RAG 代表了人工智能领域的重大进步，它通过综合来自多个来源的信息，实现了更准确和上下文感知的响应。这种方法在研究、法律分析和技术文档等复杂领域特别有价值，在这些领域中，精确的信息检索和推理至关重要。通过利用嵌入、基于 agent 的推理和强大的检索机制，该系统不仅增强了 AI 生成内容的深度和可靠性，而且为知识密集型行业的更复杂应用铺平了道路。随着技术的不断发展，多文档 Agentic RAG 有望成为从大量数据中提取有意义见解的必备工具。