Multimodal integration

FREE

Llama 3.2 11B Vision 是一个具有 110 亿参数的多模态模型，旨在处理结合视觉和文本数据的任务。它在图像描述和视觉问答等任务中表现出色，弥合了语言生成与视觉推理之间的差距。该模型在一个庞大的图像-文本对数据集上进行了预训练，能够在复杂的高精度图像分析中表现良好。它将视觉理解与语言处理相结合的能力，使其成为需要全面视觉-语言 AI 应用的行业的理想解决方案，例如内容创作、A ...

Meta Llama 128K context $0 input tokens $0 output tokens $0.079/K image tokens

Meta: Llama 3.2 11B Vision Instruct

Text image 2 text

Meta Llama 128K context $0.055/M input tokens $0.055/M output tokens $0.079/K image tokens

Multimodal integration

Meta: Llama 3.2 11B Vision Instruct (free)

Meta: Llama 3.2 11B Vision Instruct