Type something to search...

Visual question answering

Amazon Nova Pro 1.0 是一款来自亚马逊的强大多模态模型,专注于为广泛任务提供准确性、速度和成本的结合。截至2024年12月,它在关键基准测试上实现了最先进的性能,包括视觉问答(TextVQA)和视频理解(VATEX)。 Amazon Nova Pro 在处理视觉和文本信息以及分析财务文件方面表现出色。 注意:目前不支持视频输入和工具调用。 ...

Amazon: Nova Pro 1.0
Amazon
292.97K context $0.8/M input tokens $3.2/M output tokens $0.001/M image tokens

Amazon Nova Lite 1.0 是亚马逊推出的一款非常低成本的多模态模型,专注于快速处理图像、视频和文本输入以生成文本输出。Amazon Nova Lite 可以高精度地处理实时客户交互、文档分析和视觉问答任务。 在 300K tokens 的输入上下文下,它可以在单个输入中分析多个图像或长达 30 分钟的视频。 ...

Amazon: Nova Lite 1.0
Amazon
292.97K context $0.06/M input tokens $0.24/M output tokens
FREE

Llama 3.2 11B Vision 是一个具有 110 亿参数的多模态模型,旨在处理结合视觉和文本数据的任务。它在图像描述和视觉问答等任务中表现出色,弥合了语言生成与视觉推理之间的差距。该模型在一个庞大的图像-文本对数据集上进行了预训练,能够在复杂的高精度图像分析中表现良好。 它将视觉理解与语言处理相结合的能力,使其成为需要全面视觉-语言 AI 应用的行业的理想解决方案,例如内容创作、A ...

Meta: Llama 3.2 11B Vision Instruct (free)
Meta Llama
128K context $0 input tokens $0 output tokens $0.079/K image tokens

Llama 3.2 11B Vision 是一个具有 110 亿参数的多模态模型,旨在处理结合视觉和文本数据的任务。它在图像描述和视觉问答等任务中表现出色,弥合了语言生成与视觉推理之间的差距。该模型在一个庞大的图像-文本对数据集上进行了预训练,能够在复杂的高精度图像分析中表现良好。 它将视觉理解与语言处理相结合的能力,使其成为需要全面视觉-语言 AI 应用的行业的理想解决方案,例如内容创作、A ...

Meta: Llama 3.2 11B Vision Instruct
Meta Llama
128K context $0.055/M input tokens $0.055/M output tokens $0.079/K image tokens

The Llama 90B Vision 模型是一个顶尖的、拥有 90 亿参数的多模态模型,旨在应对最具挑战性的视觉推理和语言任务。它在图像描述、视觉问答和高级图像-文本理解方面提供无与伦比的准确性。该模型在庞大的多模态数据集上进行预训练,并通过人类反馈进行微调,专为处理最苛刻的基于图像的 AI 任务而设计。 该模型非常适合需要尖端多模态 AI 能力的行业,特别是那些处理复杂实时视觉和文本分析 ...

Meta: Llama 3.2 90B Vision Instruct
Meta Llama
128K context $0.35/M input tokens $0.4/M output tokens $0.506/K image tokens