Multimodal ai

Meta: Llama 3.2 90B Vision Instruct

The Llama 90B Vision 模型是一个顶尖的、拥有 90 亿参数的多模态模型，旨在应对最具挑战性的视觉推理和语言任务。它在图像描述、视觉问答和高级图像-文本理解方面提供无与伦比的准确性。该模型在庞大的多模态数据集上进行预训练，并通过人类反馈进行微调，专为处理最苛刻的基于图像的 AI 任务而设计。该模型非常适合需要尖端多模态 AI 能力的行业，特别是那些处理复杂实时视觉和文本分析 ...

Meta Llama 128K context $0.35/M input tokens $0.4/M output tokens $0.506/K image tokens

Qwen2-VL 7B Instruct

Text image 2 text

Qwen2 VL 7B 是来自 Qwen 团队的多模态 LLM，具有以下关键增强功能：对各种分辨率和比例的图像的最先进理解：Qwen2-VL 在视觉理解基准测试中实现了最先进的性能，包括 MathVista、DocVQA、RealWorldQA、MTVQA 等。理解超过 20 分钟的视频：Qwen2-VL 能够理解超过 20 分钟的视频，以便进行高质量...

Qwen 32K context $0.1/M input tokens $0.1/M output tokens $0.144/K image tokens