Type something to search...

Multimodal processing

Amazon Nova Lite 1.0 是亚马逊推出的一款非常低成本的多模态模型,专注于快速处理图像、视频和文本输入以生成文本输出。Amazon Nova Lite 可以高精度地处理实时客户交互、文档分析和视觉问答任务。 在 300K tokens 的输入上下文下,它可以在单个输入中分析多个图像或长达 30 分钟的视频。 ...

Amazon: Nova Lite 1.0
Amazon
292.97K context $0.06/M input tokens $0.24/M output tokens

Gemini 1.5 Flash 是一个基础模型,在视觉理解、分类、摘要以及从图像、音频和视频创建内容等多种多模态任务中表现出色。它擅长处理视觉和文本输入,如照片、文档、信息图和截图。 Gemini 1.5 Flash 旨在应对高容量、高频率的任务,在这些任务中,成本和延迟至关重要。在大多数常见任务中,Flash 的质量与其他 Gemini Pro 模型相当,但成本显著降低。Flash 非常适 ...

Google: Gemini Flash 1.5
Google
976.56K context $0.075/M input tokens $0.3/M output tokens $0.04/K image tokens