Visual linguistic ai

FREE

Llama 3.2 11B Vision is a multimodal model with 11 billion parameters, designed to handle tasks combining visual and textual data. It excels in tasks such as image captioning and visual question answ ...

Meta Llama 128K context $0 input tokens $0 output tokens $0.079/K image tokens

Meta: Llama 3.2 11B Vision Instruct

Text image 2 text

Meta Llama 128K context $0.055/M input tokens $0.055/M output tokens $0.079/K image tokens

Visual linguistic ai

Meta: Llama 3.2 11B Vision Instruct (free)

Meta: Llama 3.2 11B Vision Instruct