visual-question-answering

Amazon: Nova Pro 1.0

Amazon Nova Pro 1.0 是一款来自亚马逊的强大多模态模型，专注于为广泛任务提供准确性、速度和成本的结合。截至2024年12月，它在关键基准测试上实现了最先进的性能，包括视觉问答（TextVQA）和视频理解（VATEX）。 Amazon Nova Pro 在处理视觉和文本信息以及分析财务文件方面表现出色。注意：目前不支持视频输入和工具调用。 ...

Amazon 292.97K context $0.8/M input tokens $3.2/M output tokens $0.001/M image tokens

Amazon: Nova Lite 1.0

Text image 2 text

# New

Amazon Nova Lite 1.0 是亚马逊推出的一款非常低成本的多模态模型，专注于快速处理图像、视频和文本输入以生成文本输出。Amazon Nova Lite 可以高精度地处理实时客户交互、文档分析和视觉问答任务。在 300K tokens 的输入上下文下，它可以在单个输入中分析多个图像或长达 30 分钟的视频。 ...

Amazon 292.97K context $0.06/M input tokens $0.24/M output tokens

FREE

Meta: Llama 3.2 11B Vision Instruct (free)

Text image 2 text

# Free

Llama 3.2 11B Vision 是一个具有 110 亿参数的多模态模型，旨在处理结合视觉和文本数据的任务。它在图像描述和视觉问答等任务中表现出色，弥合了语言生成与视觉推理之间的差距。该模型在一个庞大的图像-文本对数据集上进行了预训练，能够在复杂的高精度图像分析中表现良好。它将视觉理解与语言处理相结合的能力，使其成为需要全面视觉-语言 AI 应用的行业的理想解决方案，例如内容创作、A ...

Meta Llama 128K context $0 input tokens $0 output tokens $0.079/K image tokens

Meta: Llama 3.2 11B Vision Instruct

Text image 2 text

Llama 3.2 11B Vision 是一个具有 110 亿参数的多模态模型，旨在处理结合视觉和文本数据的任务。它在图像描述和视觉问答等任务中表现出色，弥合了语言生成与视觉推理之间的差距。该模型在一个庞大的图像-文本对数据集上进行了预训练，能够在复杂的高精度图像分析中表现良好。它将视觉理解与语言处理相结合的能力，使其成为需要全面视觉-语言 AI 应用的行业的理想解决方案，例如内容创作、A ...

Meta Llama 128K context $0.055/M input tokens $0.055/M output tokens $0.079/K image tokens

Meta: Llama 3.2 90B Vision Instruct

Text image 2 text

The Llama 90B Vision 模型是一个顶尖的、拥有 90 亿参数的多模态模型，旨在应对最具挑战性的视觉推理和语言任务。它在图像描述、视觉问答和高级图像-文本理解方面提供无与伦比的准确性。该模型在庞大的多模态数据集上进行预训练，并通过人类反馈进行微调，专为处理最苛刻的基于图像的 AI 任务而设计。该模型非常适合需要尖端多模态 AI 能力的行业，特别是那些处理复杂实时视觉和文本分析 ...

Meta Llama 128K context $0.35/M input tokens $0.4/M output tokens $0.506/K image tokens

Visual question answering

Amazon: Nova Pro 1.0

Amazon: Nova Lite 1.0

Meta: Llama 3.2 11B Vision Instruct (free)

Meta: Llama 3.2 11B Vision Instruct

Meta: Llama 3.2 90B Vision Instruct