Meta: Llama 3.2 11B Vision Instruct
- 128K Context
- 0.055/M Input Tokens
- 0.055/M Output Tokens
- 0.079/K Image Tokens
- Meta Llama
- Text image 2 text
- 02 Dec, 2024
Llama 3.2 11B Vision 是一个具有 110 亿参数的多模态模型,旨在处理结合视觉和文本数据的任务。它在图像描述和视觉问答等任务中表现出色,弥合了语言生成与视觉推理之间的差距。该模型在一个庞大的图像-文本对数据集上进行了预训练,能够在复杂的高精度图像分析中表现良好。
它将视觉理解与语言处理相结合的能力,使其成为需要全面视觉-语言 AI 应用的行业的理想解决方案,例如内容创作、AI 驱动的客户服务和研究。
点击这里查看 原始模型卡片。
使用此模型须遵循 Meta 的可接受使用政策。