超越文本：迈向多模式 RAG 地平线

Rifx.Online
Natural Language Processing , Computer Vision , Generative AI
24 Jan, 2025

|LLM|RAG|多模态RAG|视频|视频RAG|

利用视频和多模态集成的力量推动下一代检索增强生成

我们在一个广阔的领域中航行，永远漂流在不确定中，从一端驱动到另一端。 — 布莱兹·帕斯卡

大型语言模型 (LLMs) 已成功应用于许多场景，但其局限性在于只能处理文本。因此，它们后来与大型视觉语言模型 (VLMs)结合使用。后者使用扩展的文本和多模态语料库进行训练，以便可以与多模态数据一起使用。尽管参数数量庞大，但它们容易出现幻觉，其知识可能不准确、不完整或过时。为克服LLMs的局限性，提出了通过检索增强生成 (RAG)来整合外部知识。具体而言，RAG通过在外部库中搜索所需的信息来回答问题，并在生成之前将此上下文添加到LLM中。

RAG是当今流行的框架，但它仅限于搜索和嵌入文本。考虑到对多模态模型的兴趣，认为可以将RAG扩展到其他模态。目前有一些将RAG扩展到图像的例子，但针对视频的RAG仍然缺乏。这并不是一项简单的任务，因为视频结合了时间动态、空间细节和多模态线索，使得创建视频RAG更加复杂。另一方面，考虑到TikTok和YouTube等平台的成功，视频的可用性更高，并且需要将RAG扩展到视频中。

我们如何将RAG扩展到视频呢？

在本文中，我们讨论了为什么将RAG扩展到视频是困难的，一些先前提出的解决方案，以及一种看起来很有前景的新方法。

人工智能正在改变我们的世界，塑造我们的生活和工作方式。理解其工作原理及其影响比以往任何时候都更加重要。 如果您正在寻找复杂AI主题的简单清晰解释，您来对地方了。点击关注或免费订阅以获取我最新的故事和见解。

与图片或文本相比，视频增加了额外的复杂性。 视频结合了视觉（图像）、音频甚至文本元素（字幕或屏幕文本）等不同模式。因此，RAG应该能够处理并从所有这些模态中查找信息。视频还包含大量数据，这使得处理和存储都很昂贵。同时，这种高维度性使得提取有意义的特征变得不容易，从而使搜索更加复杂。

实际上，RAG需要能够进行语义搜索，以寻找查询的答案（如果获取视频的紧凑和有意义的表示很困难，那么搜索查询的答案也会效果不佳）。此外，与其说是搜索一个数据点来回答查询（在图像的RAG中，我们搜索最能回答我们查询的图像），不如说是搜索一个序列（视频增加了时间维度）。

先前的方法尝试回答视频查询。然而，通常这些方法通过假设我们已经知道要搜索哪个视频并仅搜索特定帧来简化搜索。通常，这是使用与视频对齐的文本（通过开源工具提取音频、光学字符识别和目标检测）完成的。

大多数方法然后尝试将视频转换为文本（使用字幕或转录）并在其上进行RAG。然而，这种方法的简单性牺牲了多模态的丰富性，并且丢失了关键信息：

例如，考虑一个查询：“狗生气时表情如何变化？”虽然文本转录可能描述了狗的吠叫或咆哮，但它们无法捕捉视觉线索（露齿、竖起毛发或眯眼），这些是准确解释狗的情感状态以及形成查询答案所需的 — 来源

因此，在这篇论文中，他们提出了VideoRAG，试图整体利用视频内容并将其纳入生成中。VideoRAG查找相关视频，然后将视频的视觉和文本元素整合到答案生成过程中。

这项工作的作者利用了大型视频语言模型的能力。LVLM而不是LLM可以同时处理一系列图像和相关文本。因此，它可能使用来自多个视频的序列和相关文本来回答单个查询。此时，我们可以将VideoRAG定义为同时进行视频和文本搜索的系统。

对于视频搜索，作者将视频（帧集）与辅助文本（字幕、视频中的文本）传递给LVLM，从而生成视频的表示（嵌入）。他们像在RAG中一样构建这些表示的库。当有查询时，他们将其作为输入提供给LVLM，并获得查询表示。此时，他们计算视频嵌入与查询之间的相似性。视频根据相似性进行排名。

此时，找到的视频与相关文本连接在一起并返回给LVLM，生成响应。因为文本是丰富的信息源，有助于生成，当视频缺乏相关文本（没有字幕）时，作者提取音频并生成转录。

作为问题和答案的来源，作者使用WikiHowQA（一个提供大量从WikiHow网页提取的指导性问题的数据集）。作为视频数据集，他们使用HowTo100M（一个来自YouTube的全面指导视频集合，已与WikiHow问题关联）。

他们选择作为基线：

Naive. LLM在没有上下文的情况下生成答案。
BM25. 仅使用关键词搜索而没有语义内容的RAG。
TextRAG. 语义文本搜索（经典RAG）。
TextVideoRAG. 将视频首先表示为其文本描述（例如，字幕或转录），然后仅利用这些文本信息进行检索和生成的RAG。

然后，作者将基线与他们的系统（VideoRAG）进行比较，并提出三个变体：VIDEORAG-T（仅转录，基本上是经典RAG，但使用LVLM），VIDEORAG-V（仅视频帧），和VIDEORAG-VT（同时使用视频帧和转录）进行响应生成。

作者使用两个LVLM。InternVideo2用于检索（因为它明确训练用于对齐视频与其文本描述之间的语义），然后生成嵌入。而在生成时使用LLaVA-Video-7B，它能够进行视频理解。

此时，作者将他们的系统与经典RAG进行比较。VideoRAG在经典方法中表现最佳。最有趣的结果是，视觉组件似乎是最重要的（VIDEORAG-V和VIDEORAG-VT之间的性能相似）。

另一个有趣的结果是，文本特征似乎给出了良好的结果（可能由于它们与文本用户查询的更强语义对齐）。然而，两种模式的结合增强了系统的准确性。

作者详细分析了数据集中各种类别，以更好地理解系统，并得出一些有趣的结果：VIDEORAG-V在食品与娱乐类别中表现出显著的性能提升，这一类别特别受益于视觉细节（例如，关于食谱的问题如果有图片会更有帮助）。

作者在一个定性示例中展示了仅使用其参数记忆的LLM与进行视频RAG之间的区别（使用查询：“解释如何在汽车仪表板上烘焙饼干”）。一个简单的LLM回应说这是不可能且不安全的，显示出参数知识在特定和不常见的信息中并不实用。相反，VideoRAG找到了解释如何回答该查询的视频。

在这项工作中，我们提出了VideoRAG，一个新颖的框架，通过利用视频语料库作为外部知识源，扩展了当前RAG系统的现状。 — source

这项工作展示了两个非常有趣的结果：

如果我们想要扩展RAG，视觉组件是重要的。
使用能够本质上考虑这个组件的模型可以改善结果。

无论如何，作者表明，具有参数记忆的模型无法在没有这些视觉线索的情况下做出响应。一个限制（同时也是一个结果）是文本信息通常是足够的，因为它与用户的文本查询是对齐的。

正如您所看到的，文本查询嵌入与文本视频表示之间的接近度比视觉视频表示要更高。因此，这些视觉特征与查询之间的对齐仍然不完美，导致次优的性能。这个差距可能会在未来的视频嵌入模型中得到解决。

你怎么看？在评论中告诉我

如果你觉得这个有趣：

你可以查看我的其他文章，也可以在 LinkedIn 上与我联系或找到我。查看 这个仓库，其中包含每周更新的机器学习和人工智能新闻。我对合作和项目持开放态度，你可以在 LinkedIn 上与我联系。你也可以免费订阅，以便在我发布新故事时收到通知。

这是我 GitHub 仓库的链接，我在这里收集与机器学习、人工智能等相关的代码和许多资源。

或者你可能对我最近的一篇文章感兴趣：

参考文献

以下是我撰写本文时参考的主要文献列表，仅引用文章的第一个作者姓名。

Luo, 2024, Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension, link
Jeong, 2025, VideoRAG: Retrieval-Augmented Generation over Video Corpus, link