Type something to search...

Models

FREE

Rogue Rose 在角色扮演和故事讲述应用中展现出强大的能力,可能在 103-120B 参数范围内超越其他模型。虽然它偶尔表现出与场景逻辑的不一致,但整体互动质量代表了自然语言处理在创意应用方面的进步。 它是一个 120 层的 frankenmerge 模型,结合了来自 2023 年 11 月的两个定制 70B 架构,源自 [xwin-stellarbright-erp-70b-v2](h ...

Rogue Rose 103B v0.2 (free)
Sophosympatheia
4K context $0 input tokens $0 output tokens
FREE

Gemini 2.0 Pro Experimental 是 Gemini 2.0 Pro 模型的前沿版本。由于它目前处于实验阶段,它将受到 Google 的 严格限流。 使用 Gemini 需遵循 Google 的 Gemini 使用条款。 #multimodal ...

Google: Gemini Pro 2.0 Experimental (free)
Google
1.91M context $0 input tokens $0 output tokens
FREE

Gemini Flash Lite 2.0 提供了显著更快的首次令牌时间 (TTFT),相比于 Gemini Flash 1.5,同时保持与更大模型如 Gemini Pro 1.5 相当的质量。由于目前处于预览阶段,它将会受到 Google 的 严格限流。该模型将在 2 月 24 日的 ...

Google: Gemini Flash Lite 2.0 Preview (free)
Google
976.56K context $0 input tokens $0 output tokens
FREE

DeepSeek R1 Distill Llama 70B 是一个基于 Llama-3.3-70B-Instruct 的蒸馏大型语言模型,使用了 DeepSeek R1 的输出。该模型结合了先进的蒸馏技术,以在多个基准测试中实现高性能,包括:AIME 2024 p...

DeepSeek: R1 Distill Llama 70B (free)
DeepSeek
128K context $0 input tokens $0 output tokens
FREE

Qwen 的增强型大型视觉语言模型。显著升级了详细识别能力和文本识别能力,支持高达数百万像素的超高像素分辨率和极端宽高比的图像输入。它在广泛的视觉任务中提供了显著的性能。 ...

Qwen: Qwen VL Plus (free)
Qwen
7.32K context $0 input tokens $0 output tokens

DeepSeek R1 Distill Qwen 1.5B 是一个基于 Qwen 2.5 Math 1.5B 的蒸馏大型语言模型,使用来自 DeepSeek R1 的输出。它是一个非常小且高效的模型,在数学基准测试中超越了 [GPT 4o 0513] ...

DeepSeek: R1 Distill Qwen 1.5B
DeepSeek
128K context $0.18/M input tokens $0.18/M output tokens

DeepSeek R1 Distill Llama 8B 是一个基于 Llama-3.1-8B-Instruct 的蒸馏大型语言模型,使用来自 DeepSeek R1 的输出。该模型结合了先进的蒸馏技术,在多个基准测试中实现了高性能,包括:AIME 2024 pas...

DeepSeek: R1 Distill Llama 8B
DeepSeek
31.25K context $0.04/M input tokens $0.04/M output tokens

DeepSeek R1 Distill Qwen 14B 是一个基于 Qwen 2.5 14B 的蒸馏大型语言模型,使用来自 DeepSeek R1 的输出。它在各种基准测试中超越了 OpenAI 的 o1-min ...

DeepSeek: R1 Distill Qwen 14B
DeepSeek
62.5K context $0.15/M input tokens $0.15/M output tokens

DeepSeek R1 Distill Qwen 32B 是一个基于 Qwen 2.5 32B 的蒸馏大型语言模型,使用来自 DeepSeek R1 的输出。它在各种基准测试中超越了 OpenAI 的 o1-mini,达到了密集模型的新最先进结果。 其他基准测 ...

DeepSeek: R1 Distill Qwen 32B
DeepSeek
128K context $0.12/M input tokens $0.18/M output tokens

DeepSeek R1 已经发布:性能与 OpenAI o1 相当,但为开源且具有完全开放的推理令牌。它的参数量为 671B,在推理过程中活跃的参数为 37B。 完全开源模型 & 技术报告。 MIT 许可证:自由提炼和商业化! ...

DeepSeek: R1 (nitro)
DeepSeek
160K context $3/M input tokens $8/M output tokens

MiniMax-01 是一个结合了 MiniMax-Text-01 进行文本生成和 MiniMax-VL-01 进行图像理解的模型。它拥有 4560 亿个参数,每次推理激活 459 亿个参数,并且可以处理多达 400 万个 token 的上下文。 文本模型采用混合架构,结合了 Lightning Attention、Softmax Attention 和专家混合(MoE)。图像模型采用“ViT ...

MiniMax: MiniMax-01
Rifx.Online
976.75K context $0.2/M input tokens $1.1/M output tokens

Microsoft Research Phi-4 旨在在复杂推理任务中表现出色,并能够在内存有限或需要快速响应的情况下高效运行。 它拥有140亿个参数,训练使用了高质量的合成数据集、来自精心挑选网站的数据以及学术材料。经过仔细改进,它能够准确遵循指令并保持强大的安全标准。它最适合处理英语输入。 有关更多信息,请参见 [Phi-4 Technical Report] ...

Microsoft: Phi 4
Microsoft Azure
16K context $0.07/M input tokens $0.14/M output tokens
30% OFF

OpenAI 最新和最强大的模型系列,o1 旨在在响应之前花更多时间思考。 o1 模型针对数学、科学、编程和其他 STEM 相关任务进行了优化。它们在物理、化学和生物学的基准测试中始终表现出博士级的准确性。了解更多信息请查看 launch announcement。 注意:该模型目前处于实验阶段,不适合生产使用,并且可能会受到严重的速率限制。 ...

OpenAI: o1-preview
OpenAI
125K context $15/M input tokens $60/M output tokens
40% OFF

OpenAI 最新和最强大的模型系列,o1 旨在在响应之前花更多时间思考。 o1 模型针对数学、科学、编程和其他 STEM 相关任务进行了优化。它们在物理、化学和生物学的基准测试中始终表现出博士级的准确性。有关更多信息,请参阅 发布公告。 注意:该模型目前处于实验阶段,不适合生产使用,可能会受到严格的速率限制。 ...

OpenAI: o1-mini
OpenAI
125K context $3/M input tokens $12/M output tokens

1. 介绍 我们推出了 DeepSeek-V3,这是一款强大的混合专家 (MoE) 语言模型,拥有 671B 的总参数,其中每个令牌激活 37B。 为了实现高效推理和具有成本效益的训练,DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了充分验证。 此外,DeepSeek-V3 首创了一种无辅助损失的 ...

DeepSeek V3
DeepSeek
62.5K context $0.14/M input tokens $0.28/M output tokens
Tags
Type something to search...