Type something to search...

Multilingual text recognition

Qwen2 VL 7B 是来自 Qwen 团队的多模态 LLM,具有以下关键增强功能:对各种分辨率和比例的图像的最先进理解:Qwen2-VL 在视觉理解基准测试中取得了最先进的表现,包括 MathVista、DocVQA、RealWorldQA、MTVQA 等。理解超过 20 分钟的视频:Qwen2-VL 能够理解超过 20 分钟的视频,以实现高质量的视频问答、对话、内容创作等。...

Qwen2-VL 7B Instruct
Qwen
32K context $0.1/M input tokens $0.1/M output tokens $0.144/K image tokens

Qwen2 VL 72B 是来自 Qwen 团队的多模态 LLM,具有以下关键增强功能:SoTA 对各种分辨率和比例图像的理解:Qwen2-VL 在视觉理解基准测试中实现了最先进的性能,包括 MathVista、DocVQA、RealWorldQA、MTVQA 等。理解超过 20 分钟的视频:Qwen2-VL 能够理解超过 20 分钟的视频,以进行高质量的视频问答、对话、内容创作...

Qwen2-VL 72B Instruct
Qwen
32K context $0.4/M input tokens $0.4/M output tokens $0.578/K image tokens