LLaVA 简介：一种多模式 AI 模型

Rifx.Online
Natural Language Processing , Computer Vision , Generative AI
29 Oct, 2024

LLaVA是一个端到端训练的大型多模态模型，旨在理解和生成基于视觉输入（图像）和文本指令的内容。它结合了视觉编码器和语言模型的能力，以处理和响应多模态输入。

LLaVA 的输入和输出：连接视觉与文本领域：

LLaVA 的输入有两个方面：

视觉输入：模型可以查看和分析的图像，以提取视觉特征和上下文信息。
文本指令：文本输入，可以是问题或命令，指导模型关注什么或执行与视觉输入相关的什么任务。

LLaVA 的输出是基于文本的，可能会根据任务而有所不同：

描述性文本：如果任务是描述视觉内容，LLaVA 可以输出图像的详细描述，识别对象、动作和场景。
问题回答：对于问答任务，LLaVA 生成的回答可以解答关于视觉输入的问题，可能涉及基于图像内容的推理和推断。
后续行动：对于需要行动的指令，例如编辑图像或检索更多信息，LLaVA 可以提供适当的文本响应，指示所采取的行动或建议应该做什么。

比较分析：LLaVa与当代多模态模型

多模态人工智能的领域正在快速发展，出现了CLIP、BLIP等创新，以及最近推出的LLaVa。本小节将LLaVa的独特架构和方法与这些当代模型进行比较，突出其进步和区别，使其与众不同。

CLIP: 开创多模态理解的先河

CLIP (Contrastive Language–Image Pre-training) 在多模态人工智能领域中迈出了革命性的一步，在各种视觉任务中提供了强大的性能。它在自然语言描述的背景下理解图像的能力为该领域设定了新的基准。CLIP 通过大规模的预训练方法将图像与文本描述对齐，使模型能够在一系列视觉任务上进行零样本学习。然而，CLIP 主要关注图像与文本之间的高层次关联，并不具备深入推理或对话参与的能力。

BLIP: 连接语言与图像感知

在CLIP奠定的基础上，BLIP（Bootstrapped Language Image Pre-training）通过引入自引导预训练策略，扩展了多模态模型的能力。这种方法通过不断从自身的预测中学习，完善模型的视觉理解，从而帮助改善语言与视觉内容之间的对齐。BLIP在需要更精确视觉识别和语言理解的任务上表现出增强的性能。

相比之下，LLaVa采取了不同的路径，通过利用GPT-4的语言生成能力来策划其遵循指令的数据。这不仅导致了一个捕捉更广泛人类互动范围的数据集，还使LLaVa能够进行更复杂的推理和深入的对话能力。

LLaVa的独特之处：是模型架构还是其他因素？

根据我们的观点，LLaVA的优势主要在于其数据策划能力，而非架构选择。LLaVA的重大进展主要得益于其利用GPT-4进行数据策划。与传统的静态数据集不同，LLaVA使用ChatGPT-4生成动态、指导性的数据，积极参与各种视觉和文本场景中的训练过程。

通过使用GPT-4，LLaVA生成的数据集紧密模拟自然语言和视觉感知，脱离了传统的手动数据集生成方法。这种创新的方法不仅使AI能够理解和推理，还使其更接近于准确反映人类智能。

LLaVa中的数据整理策略

LLaVa，即大型语言与视觉助手，不仅以其先进的神经架构而闻名，还以其开创性的数据整理方法而脱颖而出。通过利用GPT-4，它彻底改变了传统的数据准备方法，构建出一个反映现实世界复杂性的数据库。

LLaVa中的数据整理始于一张图片及其相应的标题，利用GPT-4生成一组查询。这些查询引导AI精确而相关地探索和描述图像内容。

为了有效地将视觉数据转化为文本基础的AI（如GPT-4），LLaVa使用标题提供视觉场景的多样视角，并使用边界框提供空间上下文和焦点。

对话数据：模仿人类互动，LLaVa整理对话，其中模型作为助手，回答有关图像各个方面的问题。这些问题的范围包括识别物体和动作，辨别它们的数量、位置和相对位置，确保模型能够处理具有明确答案的查询。
详细描述数据：LLaVa旨在全面理解图像。为此，它促使GPT-4提出旨在理解图像丰富详细描述的问题。这些提示鼓励模型深入挖掘，提供一个捕捉视觉内容整体本质的叙述。
复杂推理数据：超越单纯描述，LLaVa通过需要分层推理过程的问题挑战模型，要求逻辑和因果关系的理解。这种类型的数据训练模型构建有理有据的响应，支持逻辑思维的顺序。

LLaVa的架构：视觉与语言的整合

LLaVa模型整合了视觉与语言，利用以下核心组件：

视觉编码器：LLaVa架构的基础是预训练的CLIP视觉编码器，特别是ViT-L/14变体。该组件通过Transformer层处理输入图像（Xv），提取特征（Zv），使模型能够有效理解视觉信息。
语言模型（Vicuna）：LLaVa的语言能力依赖于Vicuna，这是一个大型语言模型（LLM）的变体，记作fϕ。Vicuna根据输入语言指令（Xq）理解并生成语言响应（Xa），补充了视觉编码器的功能。
线性投影：该组件由一个可训练矩阵（W）表示，作为视觉特征（Zv）与语言模型的嵌入空间之间的桥梁。它将视觉特征转换为视觉标记（Hv），使其与语言模型的词嵌入空间对齐，以促进多模态对话。

训练和微调 LLaVA：

LLaVA 采用两阶段的训练过程，每个阶段都专注于提升模型解读和响应视觉与文本数据融合的能力。

Stage 1: 预训练以进行特征对齐

LLaVA训练的初始阶段是预训练以进行特征对齐。在这个阶段，模型专注于将图像中的视觉特征与语言模型中的相应文本特征对齐。这是通过将一个大型数据集过滤为一组精炼的图像-文本对来实现的，LLaVA利用这些对来学习两种模态之间的关联。

在这个阶段，视觉编码器（例如CLIP视觉编码器ViT-L/14）处理图像以提取视觉特征，然后使用投影矩阵（W）将这些特征映射到语言模型的词嵌入空间。LLaVA中使用的语言模型是Vicuna，以其强大的语言理解和生成能力而闻名。

Stage 2: 微调端到端

在对齐视觉和语言特征后，LLaVA 进行端到端的微调过程。尽管保持视觉编码器的权重不变，但这一阶段允许模型联合微调投影矩阵和语言模型的权重。其目标是最大化基于提供的多模态数据的目标答案的可能性。

这一阶段对于将 LLaVA 适应特定用例场景至关重要，例如多模态聊天、科学问答等。它确保模型不仅能够理解图像在通用描述中的上下文，还能在收到与图像相关的特定问题时参与复杂对话、提供详细解释并进行推理。

性能与基准测试：LLaVa 在 VQA 模型中的应用

LLaVA-Bench (COCO) 性能洞察

LLaVA-Bench (COCO) 提供了一个强大的框架，通过精心设计的90个问题来评估LLaVA的能力，这些问题来源于30张精选图像，涵盖对话、详细描述和复杂推理。结果如下：

指令调优效果：在进行指令调优后，LLaVA对用户命令的遵从性提高了超过50分。
问题多样性的影响：尽管详细和复杂推理问题的增加很小，但整体能力提高了7分。这一提升也对对话问题的响应产生了积极影响，展示了多样化训练集的好处。
最优数据组合：三种问题类型的结合带来了最高的性能跃升，LLaVA达到了85.1%的基准分数，强调了全面数据集在提升多模态AI能力方面的优势。

LLaVA在LLaVA-Bench（真实场景）上的表现

在对话任务中，LLaVA的准确率为57.3%，相比BLIP-2的54.6%有明显提升，远超OpenAI的Flamingo，后者仅为19.3%。
在提供详细描述方面，LLaVA得分为52.5%，展示了其从视觉线索中生成丰富、全面内容的能力。
该模型在复杂推理问题上的表现尤为突出，成功率达到81.7%，表明其先进的推理和推断能力。

LLaVA在所有类别中的综合得分为67.3%，比BLIP-2高出29个百分点，超过Flamingo 48个百分点。

限制与关注事项：

LLaVA的定量评估：

将GPT-4作为评估LLaVA性能的评判者，在基准测试AI能力的框架内提出了一个复杂的挑战。一方面，GPT-4的高级理解和生成能力使其能够批判性地评估像LLaVA这样的候选模型所产生的响应质量。这种评估涵盖了有助于衡量模型在多模态数据上遵循指令能力的因素，如帮助性、相关性、准确性和细节。然而，另一方面，使用GPT-4作为评估法官引发了关于基准测试过程公正性的担忧。

关注的核心在于，LLaVA的数据整理过程与GPT-4根本上是交织在一起的。由于GPT-4在训练LLaVA时发挥了重要作用——通过生成模型微调所需的遵循指令的数据——因此存在循环推理的固有风险。本质上，LLaVA可能倾向于生成与GPT-4训练数据中固有的模式或偏见一致的响应。这种倾向可能会扭曲评估，导致一个理论上的上限，反映出与GPT-4方法论的兼容性，而不是对普遍性能的真实衡量。

此外，依赖GPT-4提供其评估的全面解释，引入了一种主观性，这种主观性根植于语言模型对什么构成高质量响应的“理解”。这种理解受到GPT-4训练的数据集的影响，而这些数据集可能未能充分体现现实世界多模态互动的多样性和复杂性。