Multimodal processing

Amazon: Nova Lite 1.0

Amazon Nova Lite 1.0 是亚马逊推出的一款非常低成本的多模态模型，专注于快速处理图像、视频和文本输入以生成文本输出。Amazon Nova Lite 可以高精度地处理实时客户交互、文档分析和视觉问答任务。在 300K tokens 的输入上下文下，它可以在单个输入中分析多个图像或长达 30 分钟的视频。 ...

Amazon 292.97K context $0.06/M input tokens $0.24/M output tokens

Gemini 1.5 Flash 是一个基础模型，在视觉理解、分类、摘要以及从图像、音频和视频创建内容等多种多模态任务中表现出色。它擅长处理视觉和文本输入，如照片、文档、信息图和截图。 Gemini 1.5 Flash 旨在应对高容量、高频率的任务，在这些任务中，成本和延迟至关重要。在大多数常见任务中，Flash 的质量与其他 Gemini Pro 模型相当，但成本显著降低。Flash 非常适 ...

Google 976.56K context $0.075/M input tokens $0.3/M output tokens $0.04/K image tokens

Multimodal processing

Amazon: Nova Lite 1.0

Google: Gemini Flash 1.5