Qwen2-VL 72B Instruct
- 32K Context
- 0.4/M Input Tokens
- 0.4/M Output Tokens
- 0.578/K Image Tokens
- Qwen
- Text image 2 text
- 02 Dec, 2024
Qwen2 VL 72B 是来自 Qwen 团队的多模态 LLM,具有以下关键增强功能:
-
SoTA 对各种分辨率和比例图像的理解:Qwen2-VL 在视觉理解基准测试中实现了最先进的性能,包括 MathVista、DocVQA、RealWorldQA、MTVQA 等。
-
理解超过 20 分钟的视频:Qwen2-VL 能够理解超过 20 分钟的视频,以进行高质量的视频问答、对话、内容创作等。
-
能够操作您的手机、机器人等的代理:凭借复杂推理和决策能力,Qwen2-VL 可以与手机、机器人等设备集成,基于视觉环境和文本指令进行自动操作。
-
多语言支持:为了服务全球用户,除了英语和中文,Qwen2-VL 现在还支持理解图像中不同语言的文本,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。
有关更多详细信息,请参见此 blog post 和 GitHub repo。
使用此模型须遵循 Tongyi Qianwen LICENSE AGREEMENT。