Visual understanding

Google: Gemini Flash 1.5

Gemini 1.5 Flash 是一个基础模型，在视觉理解、分类、摘要以及从图像、音频和视频创建内容等多种多模态任务中表现出色。它擅长处理视觉和文本输入，如照片、文档、信息图和截图。 Gemini 1.5 Flash 旨在应对高容量、高频率的任务，在这些任务中，成本和延迟至关重要。在大多数常见任务中，Flash 的质量与其他 Gemini Pro 模型相当，但成本显著降低。Flash 非常适 ...

Google 976.56K context $0.075/M input tokens $0.3/M output tokens $0.04/K image tokens

Qwen2-VL 72B Instruct

Text image 2 text

Qwen2 VL 72B 是来自 Qwen 团队的多模态 LLM，具有以下关键增强功能：SoTA 对各种分辨率和比例图像的理解：Qwen2-VL 在视觉理解基准测试中实现了最先进的性能，包括 MathVista、DocVQA、RealWorldQA、MTVQA 等。理解超过 20 分钟的视频：Qwen2-VL 能够理解超过 20 分钟的视频，以进行高质量的视频问答、对话、内容创作...

Qwen 32K context $0.4/M input tokens $0.4/M output tokens $0.578/K image tokens