Type something to search...
深入探索microsoft的phi-4系列模型:多模态与迷你版的创新应用与实战指南

深入探索microsoft的phi-4系列模型:多模态与迷你版的创新应用与实战指南

探索微软下一代开源模型 🚀🔥

微软正式发布了其新的 Phi-4 系列模型 — Phi-4-mini (3.8B)Phi-4-multimodal (5.6B) — 采用 MIT 许可证。这些模型不仅旨在突破推理、多语言支持和数学方面的极限,而且还配备了令人兴奋的功能,如函数调用和量化模型部署。

Beats Gemini 2.0 Flash, GPT4o, Whisper, SeamlessM4T v2

在本博客中,我们将探索这些模型,分享示例代码参考(直接来自微软的 GitHub 示例),并指导您快速开始在 Azure AI Foundry 上使用它们,以及在您的笔记本电脑上本地运行这些模型。 享受穿越多模态 AI 新时代的旅程! 😊

Phi-4 模型概述

微软的 Phi-4 系列建立在其前身(14B 模型)的先进推理能力之上,并推出了两个模型:

  • Phi-4-Multimodal: 一个完全的多模态模型,集成了文本、视觉和音频。它采用了“LoRAs 混合”,因此您可以添加特定于模态的适配器,而无需重新训练基础模型。
  • Phi-4-Mini: Phi-4-Mini 拥有 38 亿个参数,在紧凑的架构中提供了增强的多语言支持、强大的推理能力,甚至函数调用。

这两个模型现在都可以在 Hugging FaceAzure AI Foundry Model Catalog、GitHub 和 Ollama 等平台上使用。

关键架构和特性

Phi-4-Multimodal

模态: 文本、视觉和语音/音频

架构: 使用“LoRAs 混合”进行特定于模态的调整

视觉模态:

  • 图像编码器:SigLIP-400M
  • 投影器:2 层 MLP
  • 策略:动态多裁剪,以实现更好的图像理解

语音/音频模态:

  • 卷积:3 层卷积网络
  • Conformer 块:24 个块,令牌速率为 80ms
  • 性能:在 OpenASR 榜单上名列前茅,并在多模态任务中表现出色

Phi-4-Mini

参数: 3.8B

架构:

  • 32 个 Transformer 层,隐藏大小为 3,072
  • Group Query Attention (GQA),具有 24 个查询头和 8 个键/值头

词汇表: 支持 20 万个令牌,用于多语言应用

训练数据: 高质量的网络和合成数据,重点是数学和编码

性能: 在数学、推理和编码任务上优于类似大小的模型,同时在关键基准上与更大的模型相匹配

训练流程和基准

这些模型的训练过程涉及多个阶段:

语言训练:

  • 在 5 万亿个令牌上进行预训练
  • 使用函数调用、摘要和指令跟随数据进行后训练

多模态训练:

  • 视觉:分四个阶段训练
  • 语音/音频:两阶段训练
  • 联合视觉-语音训练

推理训练:

  • 在 600 亿个链式思考令牌上进行预训练
  • 在 20 万个高质量示例上进行微调
  • 在 30 万个偏好样本上进行 DPO 训练

基准亮点

  • 视觉:优于 Phi-3.5-Vision、Qwen2.5-VL 和 InternVL2.5;在 OCR 和图表理解等任务上与 Gemini 和 GPT-4o 匹配
  • 语音:在 CommonVoice、FLEURS 和 OpenASR 榜单上实现 SOTA;在 AST 任务和语音摘要方面领先
  • 语言和推理:在数学、推理和编码方面表现出色 — 与 DeepSeek-Rl-Distill-Qwen-7B 等更大的模型竞争

主要用例

该模型适用于广泛的多语言和多模态商业和研究用途。该模型为需要以下功能的通用 AI 系统和应用程序提供了用途:

  • 内存/计算受限的环境
  • 延迟受限的场景
  • 强大的推理能力(尤其是数学和逻辑)
  • 函数和工具调用
  • 通用图像理解
  • 光学字符识别
  • 图表和表格理解
  • 多图像比较
  • 多图像或视频片段摘要
  • 语音识别
  • 语音翻译
  • 语音 QA
  • 语音摘要
  • 音频理解

该模型旨在加速语言和多模态模型的研究,用作生成式 AI 驱动功能的构建块。

模型部署

我们可以在边缘设备上部署量化模型。通过结合 Microsoft OliveONNX GenAI Runtime,我们可以在 Windows、iPhone、Android 和其他设备上部署 Phi-4-mini。

使用 Azure AI Foundry 快速入门

Azure AI Foundry 提供了一个无缝的环境来部署和测试这些模型。 按照以下步骤开始:

注册并创建一个项目:

  • 登录您的 Azure 门户
  • 导航到 Azure AI Foundry 部分。
  • 创建一个专门用于 Phi-4 模型部署的新项目。

部署模型:

  • 选择“部署模型”并选择 Phi-4-Multimodal 或 Phi-4-Mini。

## pip install azure-ai-inference
import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

api_key = os.getenv("AZURE_INFERENCE_CREDENTIAL", '')
if not api_key:
  raise Exception("A key should be provided to invoke the endpoint")

client = ChatCompletionsClient(
    endpoint='https://<<your-model-endpoint>>.models.ai.azure.com',
    credential=AzureKeyCredential(api_key)
)

model_info = client.get_model_info()
print("Model name:", model_info.model_name)
print("Model type:", model_info.model_type)
print("Model provider name:", model_info.model_provider_name)

payload = {}
response = client.complete(payload)

print("Response:", response.choices[0].message.content)
print("Model:", response.model)
print("Usage:")
print(" Prompt tokens:", response.usage.prompt_tokens)
print(" Total tokens:", response.usage.total_tokens)
print(" Completion tokens:", response.usage.completion_tokens)

从本地运行

## Install vLLM from pip:
pip install vllm

## Load and run the model:
vllm serve "microsoft/Phi-4-mini-instruct"

## Call the server using curl:
curl -X POST "http://localhost:8000/v1/chat/completions" \
 -H "Content-Type: application/json" \
 --data '{
  "model": "microsoft/Phi-4-mini-instruct",
  "messages": [
   {
    "role": "user",
    "content": "What is the capital of France?"
   }
  ]
 }'

示例代码参考

Microsoft 提供了这些模型的几个示例代码库。直接从他们的 GitHub 存储库中查看以下示例:

函数调用: 探索 Phi-4-mini 和 Phi-4-multimodal 如何使用函数调用来集成外部数据源(例如检索英超比赛信息):函数调用示例代码 🔗

量化模型部署: 使用 Microsoft Olive 和 ONNX GenAI Runtime 在边缘设备(Windows、iPhone、Android)上部署量化的 Phi-4-mini 模型。请参阅 Microsoft Olive 存储库和 ONNX GenAI 文档中的相关示例。

多模态 SLM — Phi-4-Multimodal: 了解如何为 Phi-4-multimodal 创建前端,它甚至支持从图像输入生成代码:多模态 SLM 示例代码 🔗

音频样本提取: 查看如何使用 Phi-4-multimodal 提取用于文本发布的音频样本:音频样本提取 🔗

语音交互示例: 查看 Phi-4 模型语音交互的演示:语音交互演示 🔗

音频翻译示例: 了解如何使用 Phi-4 执行音频翻译:音频翻译演示 🔗

高级推理代码示例: 探索一个使用 Phi-4 执行高级推理任务的示例,例如从图像输入生成项目代码: 高级推理示例代码 🔗

这些存储库是将其模型集成到您自己的项目中的绝佳起点,并作为利用 Phi-4 全部功能的指南。

结论

Phi-4 系列,包括 Phi-4-Multimodal 和 Phi-4-Mini,代表了多模态 AI 创新的一次飞跃。通过支持文本、视觉和语音——以及函数调用和量化模型部署等功能——这些模型非常适合为边缘应用程序、云部署以及介于两者之间的所有内容提供支持。

无论您是在笔记本电脑上进行本地实验,还是通过 Azure AI Foundry 进行部署,Microsoft 的 GitHub 提供的丰富示例代码(如上所述)都使您可以比以往更轻松地加入并开始构建。 享受探索 Phi-4 的功能,并祝您编码愉快! 😊

有关更多详细信息和更新,请不要忘记关注 Microsoft Phi Cookbook 和官方 Tech Community 博客。

Related Posts

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

AI 研究报告和论文写作 合并两个系统指令以获得两个模型的最佳效果 Perplexity AI 的 Deep Research 工具提供专家级的研究报告,而 OpenAI 的 ChatGPT-o3-mini-high 擅长推理。我发现你可以将它们结合起来生成令人难以置信的论文,这些论文比任何一个模型单独撰写的都要好。你只需要将这个一次性提示复制到 **

阅读更多
让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

Non members click here作为一名软件开发人员,多年来的一个发现总是让我感到惊讶,那就是人们还在 Excel

阅读更多
使用 ChatGPT 搜索网络功能的 10 种创意方法

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如,提示和输出 你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务,而不仅仅是基本的网络搜索吗? 对于那些不知道的人,ChatGPT 新的“搜索网络”功能提供实时信息。 截至撰写此帖时,该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

阅读更多
掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

10 个常见问题解答 本文是我推出的一个名为“10 个常见问题解答”的新系列的一部分。在本系列中,我旨在通过回答关于该主题的十个最常见问题来分解复杂的概念。我的目标是使用简单的语言和相关的类比,使这些想法易于理解。 图片来自 [Solen Feyissa](https://unsplash.com/@solenfeyissa?utm_source=medium&utm_medi

阅读更多
在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和科技这样一个动态的行业中,保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析,还是希望通过人工智能转变传统领域如法律,这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表,可以助力你的职业发展,并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

阅读更多
揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

在AI军备竞赛中分辨事实与虚构 DeepSeek AI真的是它所宣传的游戏规则改变者,还是仅仅聪明的营销和战略炒作?👀 虽然一些人将其视为AI效率的革命性飞跃,但另一些人则认为它的成功建立在借用(甚至窃取的)创新和可疑的做法之上。传言称,DeepSeek的首席执行官在疫情期间像囤积卫生纸一样囤积Nvidia芯片——这只是冰山一角。 从其声称的550万美元培训预算到使用Open

阅读更多
Type something to search...