Text image 2 text
MiniMax-01 是一个结合了 MiniMax-Text-01 进行文本生成和 MiniMax-VL-01 进行图像理解的模型。它拥有 4560 亿个参数,每次推理激活 459 亿个参数,并且可以处理多达 400 万个 token 的上下文。 文本模型采用混合架构,结合了 Lightning Attention、Softmax Attention 和专家混合(MoE)。图像模型采用“ViT ...
OpenAI 最新且最强大的模型系列 o1 旨在在回应之前花更多时间思考。o1 模型系列通过大规模强化学习进行训练,以利用思维链进行推理。 o1 模型针对数学、科学、编程和其他与 STEM 相关的任务进行了优化。它们在物理、化学和生物学的基准测试中始终表现出博士级的准确性。有关更多信息,请参阅 发布公告. ...
Gemini 2.0 Flash Thinking Mode 是一个实验性模型,旨在生成模型在响应过程中所经历的“思维过程”。因此,Thinking Mode 在其响应中具备比 基础 Gemini 2.0 Flash 模型 更强的推理能力。 ...
Grok 2 Vision 1212 通过更强的视觉理解、精细的指令跟随和多语言支持,推动基于图像的 AI 发展。从物体识别到风格分析,它使开发者能够构建更直观、具视觉意识的应用程序。其增强的可操控性和推理能力为下一代图像解决方案奠定了坚实的基础。 要了解更多关于该模型的信息,请查看 xAI's announcement. ...
Amazon Nova Lite 1.0 是亚马逊推出的一款非常低成本的多模态模型,专注于快速处理图像、视频和文本输入以生成文本输出。Amazon Nova Lite 可以高精度地处理实时客户交互、文档分析和视觉问答任务。 在 300K tokens 的输入上下文下,它可以在单个输入中分析多个图像或长达 30 分钟的视频。 ...
Amazon Nova Pro 1.0 是一款来自亚马逊的强大多模态模型,专注于为广泛任务提供准确性、速度和成本的结合。截至2024年12月,它在关键基准测试上实现了最先进的性能,包括视觉问答(TextVQA)和视频理解(VATEX)。 Amazon Nova Pro 在处理视觉和文本信息以及分析财务文件方面表现出色。 注意:目前不支持视频输入和工具调用。 ...
实验性版本(2024年12月6日)发布的 Gemini。 ...
Google最新的多模态模型,支持在文本或聊天提示中使用图像和视频。 针对以下语言任务进行了优化:代码生成 文本生成 文本编辑 问题解决 推荐 信息提取 数据提取或生成 AI代理使用Gemini需遵循Google的Gemin使用条款。 #multimodal ...
Amazon Nova Pro 1.0 是一款来自亚马逊的强大多模态模型,专注于为广泛任务提供准确性、速度和成本的结合。截至2024年12月,它在关键基准测试上实现了最先进的性能,包括视觉问答(TextVQA)和视频理解(VATEX)。 Amazon Nova Pro 在处理视觉和文本信息以及分析财务文件方面表现出色。 注意:目前不支持视频输入和工具调用。 ...
Amazon Nova Lite 1.0 是亚马逊推出的一款非常低成本的多模态模型,专注于快速处理图像、视频和文本输入以生成文本输出。Amazon Nova Lite 可以高精度地处理实时客户交互、文档分析和视觉问答任务。 在 300K tokens 的输入上下文下,它可以在单个输入中分析多个图像或长达 30 分钟的视频。 ...
Claude 3 Haiku 是 Anthropic 最快、最紧凑的模型,提供近乎即时的响应能力。快速且准确的针对性表现。 查看发布公告和基准测试结果 here #multimodal ...
Gemini 1.5 Flash 是一个基础模型,在视觉理解、分类、摘要以及从图像、音频和视频创建内容等多种多模态任务中表现出色。它擅长处理视觉和文本输入,如照片、文档、信息图和截图。 Gemini 1.5 Flash 旨在应对高容量、高频率的任务,在这些任务中,成本和延迟至关重要。在大多数常见任务中,Flash 的质量与其他 Gemini Pro 模型相当,但成本显著降低。Flash 非常 ...
GPT-4o mini 是 OpenAI 在 GPT-4 Omni 之后推出的最新模型,支持文本和图像输入,并提供文本输出。 作为他们最先进的小型模型,它的价格比其他最近的前沿模型便宜了许多,且比 GPT-3.5 Turbo 便宜超过 60%。它保持了 SOTA 智能,同时在成本效益上显著更高。 GPT-4 ...
GPT-4o(“o”代表“全能”)是OpenAI最新的AI模型,支持文本和图像输入,并输出文本。它保持了GPT-4 Turbo的智能水平,同时速度是其两倍,成本效益提高了50%。GPT-4o在处理非英语语言和增强视觉能力方面也提供了更好的性能。 为了与其他模型进行基准测试,它曾被暂时称为["im-also-a-good-gpt2-chatbot"] ...
GPT-4o mini 是 OpenAI 在 GPT-4 Omni 之后推出的最新模型,支持文本和图像输入,并提供文本输出。 作为他们最先进的小型模型,它的价格比其他最近的前沿模型便宜了许多,且比 GPT-3.5 Turbo 便宜超过 60%。它保持了 SOTA 智能,同时在成本效益上显著更高。 GPT-4 ...
Claude 3.5 Sonnet 提供了超越 Opus 的能力,以比 Sonnet 更快的速度,且价格与 Sonnet 相同。Sonnet 在以下方面表现尤为出色:编码:自主编写、编辑和运行代码,具备推理和故障排除能力 数据科学:增强人类的数据科学专业知识;在使用多种工具获取洞察的同时,能够处理非结构化数据 视觉处理:擅长解读图表、图形和图像,准确转录文本,以获取超越文本本身...
Pixtral Large 是一个 124B 开放权重的多模态模型,基于 Mistral Large 2 构建。该模型能够理解文档、图表和自然图像。 该模型在 Mistral Research License (MRL) 下提供,供研究和教育使用;并在 Mistral Commercial License 下提供,供实验、测试和 ...
Google的旗舰多模态模型,支持在文本或聊天提示中使用图像和视频,以获得文本或代码响应。 请参阅Deepmind提供的基准和提示指南。 使用Gemini需遵循Google的Gemini使用条款。 #multimodal ...
Google最新的多模态模型,支持在文本或聊天提示中使用图像和视频。 针对以下语言任务进行了优化:代码生成 文本生成 文本编辑 问题解决 推荐 信息提取 数据提取或生成 AI代理使用Gemini需遵循Google的Gemin使用条款。 #multimodal ...
Gemini 1.5 Flash 是一个基础模型,在视觉理解、分类、摘要以及从图像、音频和视频创建内容等多种多模态任务中表现出色。它擅长处理视觉和文本输入,如照片、文档、信息图和截图。 Gemini 1.5 Flash 旨在应对高容量、高频率的任务,在这些任务中,成本和延迟至关重要。在大多数常见任务中,Flash 的质量与其他 Gemini Pro 模型相当,但成本显著降低。Flash 非常适 ...
Mistral AI 的第一个图像到文本模型。根据他们的传统,其权重通过 torrent 发布: https://x.com/mistralai/status/1833758285167722836 ...
动态模型持续更新至 ChatGPT 中的当前版本 GPT-4o。旨在用于研究和评估。 注意:该模型目前处于实验阶段,不适合生产使用场景,可能会受到严格的速率限制。 ...
Claude 3.5 Sonnet 提供了超越 Opus 的能力,以比 Sonnet 更快的速度,且价格与 Sonnet 相同。Sonnet 在以下方面表现尤为出色:编码:自主编写、编辑和运行代码,具备推理和故障排除能力 数据科学:增强人类的数据科学专业知识;在使用多种工具获取洞察的同时,能够处理非结构化数据 视觉处理:擅长解读图表、图形和图像,准确转录文本,以获取超越文本本身的...
Google最新的多模态模型,支持在文本或聊天提示中使用图像和视频。 针对以下语言任务进行了优化:代码生成 文本生成 文本编辑 问题解决 推荐 信息提取 数据提取或生成 AI代理使用Gemini需遵循Google的Gemin使用条款。 #multimodal ...
Claude 3 Opus 是 Anthropic 针对高度复杂任务推出的最强大模型。它具有顶级的性能、智能、流畅性和理解能力。 查看发布公告和基准测试结果 这里 #multimodal ...
Claude 3 Sonnet 是企业工作负载的智能与速度的理想平衡。以更低的价格提供最大效用,可靠,适合大规模部署的平衡。 查看发布公告和基准测试结果 here #multimodal ...
Claude 3 Haiku 是 Anthropic 最快、最紧凑的模型,提供近乎即时的响应能力。快速且准确的针对性表现。 查看发布公告和基准测试结果 here #multimodal ...
Claude 3.5 Sonnet 提供了超越 Opus 的能力,以比 Sonnet 更快的速度,且价格与 Sonnet 相同。Sonnet 在以下方面表现尤为出色:编码:自主编写、编辑和运行代码,具备推理和故障排除能力 数据科学:增强人类的数据科学专业知识;在使用多种工具获取洞察的同时,能够处理非结构化数据 视觉处理:擅长解读图表、图形和图像,准确转录文本,以获取超越文本本身的...
Qwen2 VL 7B 是来自 Qwen 团队的多模态 LLM,具有以下关键增强功能:对各种分辨率和比例的图像的最先进理解:Qwen2-VL 在视觉理解基准测试中取得了最先进的表现,包括 MathVista、DocVQA、RealWorldQA、MTVQA 等。理解超过 20 分钟的视频:Qwen2-VL 能够理解超过 20 分钟的视频,以实现高质量的视频问答、对话、内容创作等。...
Llama 3.2 11B Vision 是一个具有 110 亿参数的多模态模型,旨在处理结合视觉和文本数据的任务。它在图像描述和视觉问答等任务中表现出色,弥合了语言生成与视觉推理之间的差距。该模型在一个庞大的图像-文本对数据集上进行了预训练,能够在复杂的高精度图像分析中表现良好。 它将视觉理解与语言处理相结合的能力,使其成为需要全面视觉-语言 AI 应用的行业的理想解决方案,例如内容创作、A ...
Llama 3.2 11B Vision 是一个具有 110 亿参数的多模态模型,旨在处理结合视觉和文本数据的任务。它在图像描述和视觉问答等任务中表现出色,弥合了语言生成与视觉推理之间的差距。该模型在一个庞大的图像-文本对数据集上进行了预训练,能够在复杂的高精度图像分析中表现良好。 它将视觉理解与语言处理相结合的能力,使其成为需要全面视觉-语言 AI 应用的行业的理想解决方案,例如内容创作、A ...
GPT-4o(“o”代表“全能”)是OpenAI最新的AI模型,支持文本和图像输入,并输出文本。它保持了GPT-4 Turbo的智能水平,同时速度是其两倍,成本效益提高了50%。GPT-4o在处理非英语语言和增强视觉能力方面也提供了更好的性能。 为了与其他模型进行基准测试,它曾被暂时称为["im-also-a-good-gpt2-chatbot"] ...
GPT-4o(“o”代表“全能”)是OpenAI最新的AI模型,支持文本和图像输入,并输出文本。它保持了GPT-4 Turbo的智能水平,同时速度是其两倍,成本效益提高了50%。GPT-4o在处理非英语语言和增强视觉能力方面也提供了更好的性能。 为了与其他模型进行基准测试,它曾被暂时称为["im-also-a-good-gpt2-chatbot"] ...
GPT-4o mini 是 OpenAI 在 GPT-4 Omni 之后推出的最新模型,支持文本和图像输入,并提供文本输出。 作为他们最先进的小型模型,它的价格比其他最近的前沿模型便宜了许多,且比 GPT-3.5 Turbo 便宜超过 60%。它保持了 SOTA 智能,同时在成本效益上显著更高。 GPT-4 ...
Gemini 1.5 Flash-8B 针对速度和效率进行了优化,在聊天、转录和翻译等小提示任务中提供了增强的性能。由于延迟降低,它在实时和大规模操作中非常有效。该模型专注于具有成本效益的解决方案,同时保持高质量的结果。 [点击这里了解更多关于该模型的信息](https://developers.googleblog.com/en/gemini-15-flash-8b-is-now-gener ...
Qwen2 VL 72B 是来自 Qwen 团队的多模态 LLM,具有以下关键增强功能:SoTA 对各种分辨率和比例图像的理解:Qwen2-VL 在视觉理解基准测试中实现了最先进的性能,包括 MathVista、DocVQA、RealWorldQA、MTVQA 等。理解超过 20 分钟的视频:Qwen2-VL 能够理解超过 20 分钟的视频,以进行高质量的视频问答、对话、内容创作...
The Llama 90B Vision 模型是一个顶尖的、拥有 90 亿参数的多模态模型,旨在应对最具挑战性的视觉推理和语言任务。它在图像描述、视觉问答和高级图像-文本理解方面提供无与伦比的准确性。该模型在庞大的多模态数据集上进行预训练,并通过人类反馈进行微调,专为处理最苛刻的基于图像的 AI 任务而设计。 该模型非常适合需要尖端多模态 AI 能力的行业,特别是那些处理复杂实时视觉和文本分析 ...
实验性版本(2024年11月21日) 的 Gemini。 ...
谷歌的 Gemini 1.5 Pro 实验版本。 ...
Gemini 1.5 Flash-8B 针对速度和效率进行了优化,在聊天、转录和翻译等小提示任务中提供了增强的性能。通过减少延迟,它在实时和大规模操作中非常有效。该模型专注于成本效益解决方案,同时保持高质量的结果。 [点击此处了解更多关于此模型的信息](https://developers.googleblog.com/en/gemini-15-flash-8b-i ...
Llama 3.2 11B Vision 是一个具有 110 亿参数的多模态模型,旨在处理结合视觉和文本数据的任务。它在图像描述和视觉问答等任务中表现出色,弥合了语言生成与视觉推理之间的鸿沟。该模型在大量图像-文本对的数据集上进行了预训练,能够在复杂的高精度图像分析中表现良好。 它将视觉理解与语言处理相结合的能力,使其成为需要全面视觉语言 AI 应用的行业的理想解决 ...
Llama 90B Vision模型是一款顶级的90亿参数多模态模型,旨在应对最具挑战性的视觉推理和语言任务。它在图像描述、视觉问答和高级图像-文本理解方面提供无与伦比的准确性。该模型在庞大的多模态数据集上进行预训练,并通过人类反馈进行微调,专为处理最苛刻的基于图像的AI任务而设计。 此模型非常适合需要尖端多模态AI能力的行业,尤其是那些处理复杂实时视觉和文本分析的 ...
The Llama 90B Vision模型是一款顶级的90亿参数多模态模型,旨在应对最具挑战性的视觉推理和语言任务。它在图像描述、视觉问答和高级图像-文本理解方面提供无与伦比的准确性。该模型在庞大的多模态数据集上进行预训练,并通过人类反馈进行微调,旨在处理最苛刻的基于图像的AI任务。 该模型非常适合需要尖端多模态AI能力的行业,特别是那些处理复杂实时视觉和文本分析 ...
Qwen2 VL 72B 是来自 Qwen Team 的多模态 LLM,具有以下关键增强功能:对各种分辨率和比例图像的最先进理解:Qwen2-VL 在视觉理解基准测试中实现了最先进的性能,包括 MathVista、DocVQA、RealWorldQA、MTVQA 等。理解超过 20 分钟的视频:Qwen2-VL 可以理解超过 20 分钟的视频,以进行高...
Mistral AI 的第一个图像到文本模型。根据他们的传统,其权重通过 torrent 发布: https://x.com/mistralai/status/1833758285167722836 ...
Gemini 1.5 Flash 8B Experimental 是 Gemini 1.5 Flash 模型的实验性 8B 参数版本。 使用 Gemini 需遵循 Google 的 Gemini 使用条款。 #multimodal 注意:该模型目 ...
Qwen2 VL 7B 是来自 Qwen 团队的多模态 LLM,具有以下关键增强功能:对各种分辨率和比例的图像的最先进理解:Qwen2-VL 在视觉理解基准测试中实现了最先进的性能,包括 MathVista、DocVQA、RealWorldQA、MTVQA 等。理解超过 20 分钟的视频:Qwen2-VL 能够理解超过 20 分钟的视频,以便进行高质量...
动态模型持续更新到 ChatGPT 中的当前版本 GPT-4o。旨在用于研究和评估。 注意:此模型目前处于实验阶段,不适合生产使用,并可能受到严格的速率限制。 ...
Claude 3.5 Sonnet 提供了超越 Opus 的能力,以比 Sonnet 更快的速度,且价格与 Sonnet 相同。Sonnet 在以下方面表现尤为出色:编程:自主编写、编辑和运行代码,并进行推理和故障排除 数据科学:增强人类的数据科学专业知识;在使用多种工具获取见解的同时,处理非结构化数据 视觉处理:擅长解读图表、图形和图像,准确转录文本...
Gemini 1.5 Flash 是一个基础模型,在视觉理解、分类、摘要以及从图像、音频和视频创建内容等多种多模态任务中表现出色。它擅长处理视觉和文本输入,例如照片、文档、信息图和截图。 Gemini 1.5 Flash 旨在处理高容量、高频率的任务,其中成本和延迟至关重要。在大多数常见任务中,Flash 的质量与其他 Gemini Pro 模型相当,但成本显著降低 ...
谷歌最新的多模态模型,支持在文本或聊天提示中使用图像和视频。 针对以下语言任务进行了优化:代码生成 文本生成 文本编辑 问题解决 推荐 信息提取 数据提取或生成 AI代理Gemini的使用受限于谷歌的Gemini使用条款。 #multimodal ...
Claude 3 Haiku 是 Anthropic 反应速度最快、体积最小的模型,能够实现近乎即时的响应。快速且准确的定向性能。 查看发布公告和基准测试结果 这里 #multimodal ...
Claude 3 Opus 是 Anthropic 针对高度复杂任务的最强大模型。它拥有顶级的性能、智能、流畅性和理解能力。 查看发布公告和基准测试结果 here #multimodal ...
None ...
谷歌的旗舰多模态模型,支持在文本或聊天提示中使用图像和视频,以获得文本或代码响应。 请参阅来自 Deepmind 的基准和提示指南。 使用 Gemini 需遵循谷歌的 Gemini 使用条款。 #multi ...