Type something to search...
DeepSeek: DeepSeek V3.1 (free)

DeepSeek: DeepSeek V3.1 (free)
FREE

  • 159.96K Context
  • 0 Input Tokens
  • 0 Output Tokens

DeepSeek-V3.1 is a large hybrid reasoning model (671B parameters, 37B active) that supports both thinking and non-thinking modes via prompt templates. It extends the DeepSeek-V3 base with a two-phase long-context training process, reaching up to 128K tokens, and uses FP8 microscaling for efficient inference. Users can control the reasoning behaviour with the reasoning enabled boolean. Learn more in our docs

The model improves tool use, code generation, and reasoning efficiency, achieving performance comparable to DeepSeek-R1 on difficult benchmarks while responding more quickly. It supports structured tool calling, code agents, and search agents, making it suitable for research, coding, and agentic workflows.

It succeeds the DeepSeek V3-0324 model and performs well on a variety of tasks.

Related Posts

DeepSeek V3,一个拥有685B参数的混合专家模型,是DeepSeek团队旗舰聊天模型系列的最新版本。 它继承了DeepSeek V3模型,并在多种任务上表现出色。 ...

DeepSeek: DeepSeek V3 0324
DeepSeek
62.5K context $0.27/M input tokens $1.1/M output tokens
FREE

DeepSeek V3,一个拥有685B参数的混合专家模型,是DeepSeek团队旗舰聊天模型系列的最新版本。 它继承了DeepSeek V3模型,并在多种任务上表现出色。 ...

DeepSeek: DeepSeek V3 0324 (free)
DeepSeek
62.5K context $0 input tokens $0 output tokens

1. 介绍 我们推出了 DeepSeek-V3,这是一款强大的混合专家 (MoE) 语言模型,拥有 671B 的总参数,其中每个令牌激活 37B。 为了实现高效推理和具有成本效益的训练,DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了充分验证。 此外,DeepSeek-V3 首创了一种无辅助损失的 ...

DeepSeek V3
DeepSeek
62.5K context $0.14/M input tokens $0.28/M output tokens

DeepSeek-V3 是 DeepSeek 团队最新的模型,基于之前版本的指令跟随和编码能力。该模型在近 15 万亿个标记上进行预训练,报告的评估显示该模型在性能上优于其他开源模型,并与领先的闭源模型相媲美。有关模型的详细信息,请访问 DeepSeek-V3 仓库以获取更多信息。 DeepSeek-V2 Chat 是 DeepSeek-V2 的对话微调版本,属于混合专家(MoE)语言模型。 ...

DeepSeek V3
DeepSeek
62.5K context $0.14/M input tokens $0.28/M output tokens
FREE

DeepSeek-R1 1. 介绍 我们介绍我们的第一代推理模型,DeepSeek-R1-Zero 和 DeepSeek-R1。 DeepSeek-R1-Zero 是通过大规模强化学习(RL)训练的模型,没有经过监督微调(SFT)作为初步步骤,表现出卓越的推理能力。 通过 RL,DeepSeek-R1-Zero 自然展现出许多强大且有趣的推理行为。 然而,DeepSeek-R ...

DeepSeek: R1 0528 (free)
DeepSeek
160K context $0 input tokens $0 output tokens

DeepSeek R1 Distill Llama 70B 是一个基于 Llama-3.3-70B-Instruct 的蒸馏大型语言模型,使用了 DeepSeek R1 的输出。该模型结合了先进的蒸馏技术,以在多个基准测试中实现高性能,包括:AIME 2024 p...

DeepSeek: DeepSeek R1 Distill Llama 70B
DeepSeek
128K context $0.23/M input tokens $0.69/M output tokens
Type something to search...