Type something to search...
microsoft phi-4:释放下一代小型 LLM 的多模态能力的强大动力

microsoft phi-4:释放下一代小型 LLM 的多模态能力的强大动力

最佳小型 LLM,phi-4 多模态支持音频和视觉,已开源

图片由 Guillaume de Germain 拍摄于 Unsplash

本月发布了许多产品,包括 Grok3、Claude 3.7 Sonnet,科技巨头微软推出了 phi3.5 的续作,即 phi-4。根据基准测试,该模型表现出色,并且是目前最好的小型模型,同时还有一个多模态版本,即支持音频、视觉和文本的 Phi-4 多模态版本。

什么是 Phi-4?

Phi-4 是由 Microsoft Research 开发的下一代语言模型。它采用丰富的训练方法,结合了合成数据集和精心挑选的真实世界数据,专注于提供强大的推理、逻辑和理解能力。它的训练目标是为内存/计算受限的环境低延迟应用高级推理场景提供解决方案。

主要特性和架构

  • 模型架构:Phi-4 是一个 140 亿参数 的密集型仅解码器 Transformer 模型。其设计经过优化,可以处理大规模语言处理任务,同时足够高效地在资源受限的环境中运行。
  • 训练和硬件:Phi-4 使用 1920 个 H100–80G GPU 进行了训练,历时 21 天,处理了 9.8 万亿个 token 的数据。该模型经过微调,优先考虑 高质量的输出高级推理
  • 上下文长度:Phi-4 的突出特点之一是其 16K token 上下文长度,使其能够比许多其他模型更有效地处理广泛的对话或长篇内容。
  • 训练数据:其数据来自公开可用的文档合成数据学术书籍的混合。它还包括 8% 的多语言数据,尽管其主要重点仍然是 英语
  • 该模型已完全 开源

性能基准

Phi-4 已经针对各种基准进行了评估,以衡量其在多个领域的能力:

MMLU (Multitask Language Understanding):84.8(相比之下,Phi-3 为 77.9)。

数学推理:在 MATHMGSM 测试中表现出色,得分超过许多其他领先模型。

代码生成:Phi-4 在 HumanEval 中表现出令人印象深刻的熟练程度,得分为 82.6,是业界最佳水平之一。

事实知识:在 SimpleQA 上,它落后于一些竞争对手,但仍然表现良好,得分为 3.0

推理和理解DROP 基准测试得分为 75.5,表明 Phi-4 对逻辑推理有扎实的掌握。

安全性和伦理考量

Phi-4 具有强大的安全机制,利用了 监督微调 (SFT)直接偏好优化 (DPO)。该模型接受了多次安全测试,包括对抗性模拟和与微软的 AI Red Team (AIRT) 的合作。这些措施确保该模型最大限度地减少有害输出,例如 虚假信息有偏见的内容,尽管鼓励开发人员为特定用例采取额外的安全预防措施。

挑战和局限性

尽管 Phi-4 具有令人印象深刻的能力,但并非没有挑战。它的一些局限性包括:

多语言支持:虽然它包含一些多语言数据,但 Phi-4 并不适合非英语任务。

表示和偏见:与任何在公开可用数据上训练的 AI 一样,在某些群体或思想的表示方式方面存在 偏见 的可能性。

可靠性:像 Phi-4 这样的语言模型有时可能会生成 不准确无意义 的内容,尤其是在高风险领域。

微软 Phi-4 多模态

微软的 Phi-4 多模态 LLM 在基础 Phi-4 模型的基础上构建,增加了新的功能,不仅可以处理文本,还可以处理多模态输入。这种扩展允许 Phi-4 处理更多种类型的数据,例如图像和其他非文本形式的信息,以及其在 自然语言处理 方面的核心优势。以下是其多模态功能的简要概述。

Phi-4 多模态 LLM 的主要特性

  1. 多模态输入处理:与仅在文本输入上运行的基础 Phi-4 不同,多模态变体 扩展到包括 图像 和可能其他类型的数据。这使得该模型能够执行需要基于多种形式的输入理解和生成响应的任务。

  2. 文本和图像的统一模型:Phi-4 的多模态版本旨在解释和生成结合文本和视觉内容的内容。这开辟了新的用例,包括以下任务:

    图像字幕:为图像生成准确且与上下文相关的标题。

    视觉问答:根据图像的内容回答问题。

    跨模态推理:结合来自文本和图像的信息以形成连贯的响应或见解。

    3. 跨模态的上下文理解:该模型可以利用其 16K token 上下文长度 来理解和生成利用视觉和文本上下文的响应。这种能力允许在涉及文本和图像之间复杂关系的各种任务中进行更深入的推理和更细微的输出。

    4. 训练方法:Phi-4 的多模态功能建立在与原始模型相同的核心原则之上,但使用额外的 图像-文本对 和多模态数据集进行训练。这种训练确保了模型能够有效地对齐和整合来自两种模态的信息。

    5. 性能基准:由于多模态扩展仍然是一项相对较新的进展,因此该版本的性能基准仍在出现。但是,考虑到该模型的核心功能和大型训练数据集,预计它将在需要文本理解和视觉处理的任务中表现出色。

如何使用 Phi-4?

Phi-4 和 Phi-4 多模态均已开源,权重和代码可在 HuggingFace 上获取

[## microsoft/phi-4 · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co](https://huggingface.co/microsoft/phi-4)

## microsoft/Phi-4-multimodal-instruct · Hugging Face

我们正通过开源和开放科学,踏上推进人工智能并使其大众化的旅程。

结论

微软的 Phi-4Phi-4 多模态 LLM 代表了人工智能的重大进步,提供了强大的 语言理解多模态 能力。 Phi-4 在数学、代码生成和科学等任务中,擅长 推理逻辑 和安全性。 多模态 版本集成了 文本和图像输入,从而实现更具情境感知能力的响应。 这两个模型都为 效率责任 而构建,为跨行业的 AI 驱动解决方案树立了新标准。

Related Posts

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

AI 研究报告和论文写作 合并两个系统指令以获得两个模型的最佳效果 Perplexity AI 的 Deep Research 工具提供专家级的研究报告,而 OpenAI 的 ChatGPT-o3-mini-high 擅长推理。我发现你可以将它们结合起来生成令人难以置信的论文,这些论文比任何一个模型单独撰写的都要好。你只需要将这个一次性提示复制到 **

阅读更多
让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

Non members click here作为一名软件开发人员,多年来的一个发现总是让我感到惊讶,那就是人们还在 Excel

阅读更多
使用 ChatGPT 搜索网络功能的 10 种创意方法

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如,提示和输出 你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务,而不仅仅是基本的网络搜索吗? 对于那些不知道的人,ChatGPT 新的“搜索网络”功能提供实时信息。 截至撰写此帖时,该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

阅读更多
掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

10 个常见问题解答 本文是我推出的一个名为“10 个常见问题解答”的新系列的一部分。在本系列中,我旨在通过回答关于该主题的十个最常见问题来分解复杂的概念。我的目标是使用简单的语言和相关的类比,使这些想法易于理解。 图片来自 [Solen Feyissa](https://unsplash.com/@solenfeyissa?utm_source=medium&utm_medi

阅读更多
在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和科技这样一个动态的行业中,保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析,还是希望通过人工智能转变传统领域如法律,这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表,可以助力你的职业发展,并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

阅读更多
揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

在AI军备竞赛中分辨事实与虚构 DeepSeek AI真的是它所宣传的游戏规则改变者,还是仅仅聪明的营销和战略炒作?👀 虽然一些人将其视为AI效率的革命性飞跃,但另一些人则认为它的成功建立在借用(甚至窃取的)创新和可疑的做法之上。传言称,DeepSeek的首席执行官在疫情期间像囤积卫生纸一样囤积Nvidia芯片——这只是冰山一角。 从其声称的550万美元培训预算到使用Open

阅读更多
Type something to search...