Type something to search...

Models

DeepSeek R1 Distill Qwen 1.5B 是一个基于 Qwen 2.5 Math 1.5B 的蒸馏大型语言模型,使用来自 DeepSeek R1 的输出。它是一个非常小且高效的模型,在数学基准测试中超越了 [GPT 4o 0513] ...

DeepSeek: R1 Distill Qwen 1.5B
DeepSeek
128K context $0.18/M input tokens $0.18/M output tokens

DeepSeek R1 Distill Llama 8B 是一个基于 Llama-3.1-8B-Instruct 的蒸馏大型语言模型,使用来自 DeepSeek R1 的输出。该模型结合了先进的蒸馏技术,在多个基准测试中实现了高性能,包括:AIME 2024 pas...

DeepSeek: R1 Distill Llama 8B
DeepSeek
31.25K context $0.04/M input tokens $0.04/M output tokens

DeepSeek R1 Distill Qwen 14B 是一个基于 Qwen 2.5 14B 的蒸馏大型语言模型,使用来自 DeepSeek R1 的输出。它在各种基准测试中超越了 OpenAI 的 o1-min ...

DeepSeek: R1 Distill Qwen 14B
DeepSeek
62.5K context $0.15/M input tokens $0.15/M output tokens

DeepSeek R1 Distill Qwen 32B 是一个基于 Qwen 2.5 32B 的蒸馏大型语言模型,使用来自 DeepSeek R1 的输出。它在各种基准测试中超越了 OpenAI 的 o1-mini,达到了密集模型的新最先进结果。 其他基准测 ...

DeepSeek: R1 Distill Qwen 32B
DeepSeek
128K context $0.12/M input tokens $0.18/M output tokens

DeepSeek R1 已经发布:性能与 OpenAI o1 相当,但为开源且具有完全开放的推理令牌。它的参数量为 671B,在推理过程中活跃的参数为 37B。 完全开源模型 & 技术报告。 MIT 许可证:自由提炼和商业化! ...

DeepSeek: R1 (nitro)
DeepSeek
160K context $3/M input tokens $8/M output tokens

MiniMax-01 是一个结合了 MiniMax-Text-01 进行文本生成和 MiniMax-VL-01 进行图像理解的模型。它拥有 4560 亿个参数,每次推理激活 459 亿个参数,并且可以处理多达 400 万个 token 的上下文。 文本模型采用混合架构,结合了 Lightning Attention、Softmax Attention 和专家混合(MoE)。图像模型采用“ViT ...

MiniMax: MiniMax-01
Rifx.Online
976.75K context $0.2/M input tokens $1.1/M output tokens

Microsoft Research Phi-4 旨在在复杂推理任务中表现出色,并能够在内存有限或需要快速响应的情况下高效运行。 它拥有140亿个参数,训练使用了高质量的合成数据集、来自精心挑选网站的数据以及学术材料。经过仔细改进,它能够准确遵循指令并保持强大的安全标准。它最适合处理英语输入。 有关更多信息,请参见 [Phi-4 Technical Report] ...

Microsoft: Phi 4
Microsoft Azure
16K context $0.07/M input tokens $0.14/M output tokens
30% OFF

OpenAI 最新和最强大的模型系列,o1 旨在在响应之前花更多时间思考。 o1 模型针对数学、科学、编程和其他 STEM 相关任务进行了优化。它们在物理、化学和生物学的基准测试中始终表现出博士级的准确性。了解更多信息请查看 launch announcement。 注意:该模型目前处于实验阶段,不适合生产使用,并且可能会受到严重的速率限制。 ...

OpenAI: o1-preview
OpenAI
125K context $15/M input tokens $60/M output tokens
40% OFF

OpenAI 最新和最强大的模型系列,o1 旨在在响应之前花更多时间思考。 o1 模型针对数学、科学、编程和其他 STEM 相关任务进行了优化。它们在物理、化学和生物学的基准测试中始终表现出博士级的准确性。有关更多信息,请参阅 发布公告。 注意:该模型目前处于实验阶段,不适合生产使用,可能会受到严格的速率限制。 ...

OpenAI: o1-mini
OpenAI
125K context $3/M input tokens $12/M output tokens

1. 介绍 我们推出了 DeepSeek-V3,这是一款强大的混合专家 (MoE) 语言模型,拥有 671B 的总参数,其中每个令牌激活 37B。 为了实现高效推理和具有成本效益的训练,DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了充分验证。 此外,DeepSeek-V3 首创了一种无辅助损失的 ...

DeepSeek V3
DeepSeek
62.5K context $0.14/M input tokens $0.28/M output tokens

OpenAI 最新和最强大的模型系列,o1 旨在在响应之前花更多时间思考。 o1 模型针对数学、科学、编程和其他 STEM 相关任务进行了优化。它们在物理、化学和生物学的基准测试中始终表现出博士级的准确性。有关更多信息,请参阅 发布公告。 注意:该模型目前处于实验阶段,不适合生产使用,可能会受到严格的速率限制。 ...

OpenAI: o1-mini
OpenAI
125K context $3/M input tokens $12/M output tokens

OpenAI 最新且最强大的模型系列 o1 旨在在回应之前花更多时间思考。o1 模型系列通过大规模强化学习进行训练,以利用思维链进行推理。 o1 模型针对数学、科学、编程和其他与 STEM 相关的任务进行了优化。它们在物理、化学和生物学的基准测试中始终表现出博士级的准确性。有关更多信息,请参阅 发布公告. ...

OpenAI: o1
OpenAI
195.31K context $15/M input tokens $60/M output tokens $0.022/M image tokens
FREE

Gemini 2.0 Flash Thinking Mode 是一个实验性模型,旨在生成模型在响应过程中所经历的“思维过程”。因此,Thinking Mode 在其响应中具备比 基础 Gemini 2.0 Flash 模型 更强的推理能力。 ...

Google: Gemini 2.0 Flash Thinking Experimental (free)
Google
39.06K context $0 input tokens $0 output tokens
50% OFF

EVA Llama 3.33 70b 是一个角色扮演和故事创作的专业模型。它是对 Llama-3.3-70B-Instruct 在合成数据和自然数据混合上的全参数微调。 它使用了 Celeste 70B 0.1 数据混合,极大地扩展了数据,以提高模型的多样性、创造力和“风味”。 ...

EVA Llama 3.33 70b
Eva unit 01
16K context $4/M input tokens $6/M output tokens

Grok 2 Vision 1212 通过更强的视觉理解、精细的指令跟随和多语言支持,推动基于图像的 AI 发展。从物体识别到风格分析,它使开发者能够构建更直观、具视觉意识的应用程序。其增强的可操控性和推理能力为下一代图像解决方案奠定了坚实的基础。 要了解更多关于该模型的信息,请查看 xAI's announcement. ...

xAI: Grok 2 Vision 1212
X AI
32K context $2/M input tokens $10/M output tokens $0.004/M image tokens
Tags
Type something to search...