Qwen2-VL 72B Instruct
- 32K Context
- 0.4/M Input Tokens
- 0.4/M Output Tokens
- 0.578/K Image Tokens
- Qwen
- Text image 2 text
- 18 Sep, 2024
Qwen2 VL 72B 是来自 Qwen Team 的多模态 LLM,具有以下关键增强功能:
-
对各种分辨率和比例图像的最先进理解:Qwen2-VL 在视觉理解基准测试中实现了最先进的性能,包括 MathVista、DocVQA、RealWorldQA、MTVQA 等。
-
理解超过 20 分钟的视频:Qwen2-VL 可以理解超过 20 分钟的视频,以进行高质量的视频问答、对话、内容创作等。
-
能够操作您的手机、机器人等的智能体:凭借复杂推理和决策能力,Qwen2-VL 可以与手机、机器人等设备集成,实现基于视觉环境和文本指令的自动操作。
-
多语言支持:为了服务全球用户,除了英语和中文,Qwen2-VL 现在还支持理解图像中不同语言的文本,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。
有关更多详细信息,请参阅此 博客文章 和 GitHub 仓库。
使用此模型受 通义千问许可协议 的约束。