Type something to search...

Visual understanding

Gemini 1.5 Flash 是一个基础模型,在视觉理解、分类、摘要以及从图像、音频和视频创建内容等多种多模态任务中表现出色。它擅长处理视觉和文本输入,如照片、文档、信息图和截图。 Gemini 1.5 Flash 旨在应对高容量、高频率的任务,在这些任务中,成本和延迟至关重要。在大多数常见任务中,Flash 的质量与其他 Gemini Pro 模型相当,但成本显著降低。Flash 非常适 ...

Google: Gemini Flash 1.5
Google
976.56K context $0.075/M input tokens $0.3/M output tokens $0.04/K image tokens

Qwen2 VL 72B 是来自 Qwen 团队的多模态 LLM,具有以下关键增强功能:SoTA 对各种分辨率和比例图像的理解:Qwen2-VL 在视觉理解基准测试中实现了最先进的性能,包括 MathVista、DocVQA、RealWorldQA、MTVQA 等。理解超过 20 分钟的视频:Qwen2-VL 能够理解超过 20 分钟的视频,以进行高质量的视频问答、对话、内容创作...

Qwen2-VL 72B Instruct
Qwen
32K context $0.4/M input tokens $0.4/M output tokens $0.578/K image tokens