microsoft phi-4：释放下一代小型 LLM 的多模态能力的强大动力

Rifx.Online
Natural Language Processing , Large Language Models , AI Applications
05 Mar, 2025

最佳小型 LLM，phi-4 多模态支持音频和视觉，已开源

本月发布了许多产品，包括 Grok3、Claude 3.7 Sonnet，科技巨头微软推出了 phi3.5 的续作，即 phi-4。根据基准测试，该模型表现出色，并且是目前最好的小型模型，同时还有一个多模态版本，即支持音频、视觉和文本的 Phi-4 多模态版本。

什么是 Phi-4？

Phi-4 是由 Microsoft Research 开发的下一代语言模型。它采用丰富的训练方法，结合了合成数据集和精心挑选的真实世界数据，专注于提供强大的推理、逻辑和理解能力。它的训练目标是为内存/计算受限的环境、低延迟应用和高级推理场景提供解决方案。

主要特性和架构

模型架构：Phi-4 是一个 140 亿参数 的密集型仅解码器 Transformer 模型。其设计经过优化，可以处理大规模语言处理任务，同时足够高效地在资源受限的环境中运行。
训练和硬件：Phi-4 使用 1920 个 H100–80G GPU 进行了训练，历时 21 天，处理了 9.8 万亿个 token 的数据。该模型经过微调，优先考虑 高质量的输出 和 高级推理。
上下文长度：Phi-4 的突出特点之一是其 16K token 上下文长度，使其能够比许多其他模型更有效地处理广泛的对话或长篇内容。
训练数据：其数据来自公开可用的文档、合成数据和学术书籍的混合。它还包括 8% 的多语言数据，尽管其主要重点仍然是英语。
该模型已完全开源

性能基准

Phi-4 已经针对各种基准进行了评估，以衡量其在多个领域的能力：

MMLU (Multitask Language Understanding)：84.8（相比之下，Phi-3 为 77.9）。

数学推理：在 MATH 和 MGSM 测试中表现出色，得分超过许多其他领先模型。

代码生成：Phi-4 在 HumanEval 中表现出令人印象深刻的熟练程度，得分为 82.6，是业界最佳水平之一。

事实知识：在 SimpleQA 上，它落后于一些竞争对手，但仍然表现良好，得分为 3.0。

推理和理解：DROP 基准测试得分为 75.5，表明 Phi-4 对逻辑推理有扎实的掌握。

安全性和伦理考量

Phi-4 具有强大的安全机制，利用了 监督微调 (SFT) 和 直接偏好优化 (DPO)。该模型接受了多次安全测试，包括对抗性模拟和与微软的 AI Red Team (AIRT) 的合作。这些措施确保该模型最大限度地减少有害输出，例如 虚假信息 和 有偏见的内容，尽管鼓励开发人员为特定用例采取额外的安全预防措施。

挑战和局限性

尽管 Phi-4 具有令人印象深刻的能力，但并非没有挑战。它的一些局限性包括：

多语言支持：虽然它包含一些多语言数据，但 Phi-4 并不适合非英语任务。

表示和偏见：与任何在公开可用数据上训练的 AI 一样，在某些群体或思想的表示方式方面存在偏见的可能性。

可靠性：像 Phi-4 这样的语言模型有时可能会生成 不准确 或 无意义 的内容，尤其是在高风险领域。

微软 Phi-4 多模态

微软的 Phi-4 多模态 LLM 在基础 Phi-4 模型的基础上构建，增加了新的功能，不仅可以处理文本，还可以处理多模态输入。这种扩展允许 Phi-4 处理更多种类型的数据，例如图像和其他非文本形式的信息，以及其在 自然语言处理 方面的核心优势。以下是其多模态功能的简要概述。

Phi-4 多模态 LLM 的主要特性

多模态输入处理：与仅在文本输入上运行的基础 Phi-4 不同，多模态变体 扩展到包括图像和可能其他类型的数据。这使得该模型能够执行需要基于多种形式的输入理解和生成响应的任务。
文本和图像的统一模型：Phi-4 的多模态版本旨在解释和生成结合文本和视觉内容的内容。这开辟了新的用例，包括以下任务：

图像字幕：为图像生成准确且与上下文相关的标题。

视觉问答：根据图像的内容回答问题。

跨模态推理：结合来自文本和图像的信息以形成连贯的响应或见解。

3. 跨模态的上下文理解：该模型可以利用其 16K token 上下文长度 来理解和生成利用视觉和文本上下文的响应。这种能力允许在涉及文本和图像之间复杂关系的各种任务中进行更深入的推理和更细微的输出。

4. 训练方法：Phi-4 的多模态功能建立在与原始模型相同的核心原则之上，但使用额外的 图像-文本对 和多模态数据集进行训练。这种训练确保了模型能够有效地对齐和整合来自两种模态的信息。

5. 性能基准：由于多模态扩展仍然是一项相对较新的进展，因此该版本的性能基准仍在出现。但是，考虑到该模型的核心功能和大型训练数据集，预计它将在需要文本理解和视觉处理的任务中表现出色。

如何使用 Phi-4？

Phi-4 和 Phi-4 多模态均已开源，权重和代码可在 HuggingFace 上获取

[## microsoft/phi-4 · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co](https://huggingface.co/microsoft/phi-4)

## microsoft/Phi-4-multimodal-instruct · Hugging Face

我们正通过开源和开放科学，踏上推进人工智能并使其大众化的旅程。

结论

微软的 Phi-4 和 Phi-4 多模态 LLM 代表了人工智能的重大进步，提供了强大的 语言理解 和 多模态 能力。 Phi-4 在数学、代码生成和科学等任务中，擅长推理、逻辑和安全性。 多模态 版本集成了 文本和图像输入，从而实现更具情境感知能力的响应。这两个模型都为效率和责任而构建，为跨行业的 AI 驱动解决方案树立了新标准。