DeepSeek

DeepSeek是一家成立于2021年的人工智能公司，由来自谷歌、微软和OpenAI等顶级科技公司的AI专家创立。公司致力于开发安全、高效且具有成本效益的大型语言模型，目标是让AI技术更易获取、更实用。

公司发展：

2021年：公司成立，开始研发大型语言模型
2023年：发布首个商用API服务和DeepSeek-V1模型
2024年：推出DeepSeek-V2和Coder-V2系列，并获得广泛认可
目前：持续优化模型性能，扩大应用场景

公司提供三个主要的模型系列：

DeepSeek-Coder-V2：

专门针对代码开发优化的高性能模型
在代码生成和理解方面表现优异
支持多种编程语言和框架
质量评分在所有DeepSeek模型中最高

DeepSeek-V2：

通用型大语言模型
在推理、知识和通用任务上表现出色
与DeepSeek-Coder-V2并列最高质量模型
在科学推理和定量分析方面表现突出

DeepSeek-V2.5：

最新一代通用语言模型
在输出速度方面略有提升（17 tokens/秒）
保持了与前代相似的性能水平
针对实际应用场景进行了优化

所有模型共同特点：

支持128k的大规模上下文窗口
完整支持函数调用(Function Calling)功能
支持JSON模式输出
首个token响应时间在1.12-1.15秒之间
统一定价：每百万tokens 0.17美元（混合价格）

创新功能：

上下文缓存技术(Context Caching on Disk)
缓存命中可节省高达90%的API成本
提示词缓存价格：$0.014/百万tokens

性能评估：

在MMLU（推理与知识）测试中表现优异
在GPQA（科学推理与知识）评估中得分较高
在数学推理(MATH)测试中展现出色能力
在代码评估(HumanEval)中取得优秀成绩
在LMSys Chatbot Arena的ELO评分中表现突出

技术创新与研究：

拥有多项核心技术专利
与多所顶尖高校建立研究合作
定期发布技术研究论文
积极参与开源社区建设

企业愿景： DeepSeek致力于通过持续的技术创新和模型优化，为全球开发者和企业提供更优质、更经济的AI解决方案。公司特别注重模型的实用性、可靠性和成本效益，努力降低AI应用的门槛。

通过在模型质量、性能和价格之间取得平衡，DeepSeek正在AI领域建立起独特的竞争优势，并持续推动AI技术的民主化进程。

DeepSeek V2.5

Text 2 text

DeepSeek-V2.5 是一个升级版本，结合了 DeepSeek-V2-Chat 和 DeepSeek-Coder-V2-Instruct。新模型整合了前两个版本的通用能力和编码能力。 DeepSeek-V2 Chat 是 DeepSeek-V2 的对话微调版本，属于混合专家（MoE）语言模型。它总共包含 236B 个参数，其中每个 token 激活 21B。 ...

Deepseek 125K context $0.14/M input tokens $0.28/M output tokens

DeepSeek V3

Text 2 text

# New # Hot

1. 介绍我们推出了 DeepSeek-V3，这是一款强大的混合专家 (MoE) 语言模型，拥有 671B 的总参数，其中每个令牌激活 37B。为了实现高效推理和具有成本效益的训练，DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构，这些架构在 DeepSeek-V2 中得到了充分验证。此外，DeepSeek-V3 首创了一种无辅助损失的 ...

DeepSeek 62.5K context $0.14/M input tokens $0.28/M output tokens

DeepSeek-V3 是 DeepSeek 团队最新的模型，基于之前版本的指令跟随和编码能力。该模型在近 15 万亿个标记上进行预训练，报告的评估显示该模型在性能上优于其他开源模型，并与领先的闭源模型相媲美。有关模型的详细信息，请访问 DeepSeek-V3 仓库以获取更多信息。 DeepSeek-V2 Chat 是 DeepSeek-V2 的对话微调版本，属于混合专家（MoE）语言模型。 ...

DeepSeek 62.5K context $0.14/M input tokens $0.28/M output tokens

DeepSeek: DeepSeek R1 Distill Llama 70B

Text 2 text

DeepSeek R1 Distill Llama 70B 是一个基于 Llama-3.3-70B-Instruct 的蒸馏大型语言模型，使用了 DeepSeek R1 的输出。该模型结合了先进的蒸馏技术，以在多个基准测试中实现高性能，包括：AIME 2024 p...

DeepSeek 128K context $0.23/M input tokens $0.69/M output tokens

FREE

DeepSeek: R1 Distill Llama 70B (free)

Text 2 text

# Free

DeepSeek 128K context $0 input tokens $0 output tokens

DeepSeek: R1 Distill Llama 8B

Text 2 text

DeepSeek R1 Distill Llama 8B 是一个基于 Llama-3.1-8B-Instruct 的蒸馏大型语言模型，使用来自 DeepSeek R1 的输出。该模型结合了先进的蒸馏技术，在多个基准测试中实现了高性能，包括：AIME 2024 pas...

DeepSeek 31.25K context $0.04/M input tokens $0.04/M output tokens

DeepSeek: R1 Distill Qwen 1.5B

Text 2 text

DeepSeek R1 Distill Qwen 1.5B 是一个基于 Qwen 2.5 Math 1.5B 的蒸馏大型语言模型，使用来自 DeepSeek R1 的输出。它是一个非常小且高效的模型，在数学基准测试中超越了 [GPT 4o 0513] ...

DeepSeek 128K context $0.18/M input tokens $0.18/M output tokens

DeepSeek: R1 Distill Qwen 14B

Text 2 text

DeepSeek R1 Distill Qwen 14B 是一个基于 Qwen 2.5 14B 的蒸馏大型语言模型，使用来自 DeepSeek R1 的输出。它在各种基准测试中超越了 OpenAI 的 o1-min ...

DeepSeek 62.5K context $0.15/M input tokens $0.15/M output tokens

DeepSeek: R1 Distill Qwen 32B

Text 2 text

DeepSeek R1 Distill Qwen 32B 是一个基于 Qwen 2.5 32B 的蒸馏大型语言模型，使用来自 DeepSeek R1 的输出。它在各种基准测试中超越了 OpenAI 的 o1-mini，达到了密集模型的新最先进结果。其他基准测 ...

DeepSeek 128K context $0.12/M input tokens $0.18/M output tokens

20% OFF

DeepSeek: R1

Text 2 text

# Hot # Discount

DeepSeek-R1 1. 介绍我们介绍我们的第一代推理模型，DeepSeek-R1-Zero 和 DeepSeek-R1。 DeepSeek-R1-Zero 是通过大规模强化学习（RL）训练的模型，没有经过监督微调（SFT）作为初步步骤，表现出卓越的推理能力。通过 RL，DeepSeek-R1-Zero 自然展现出许多强大且有趣的推理行为。然而，DeepSeek-R ...

DeepSeek 160K context $3/M input tokens $8/M output tokens

FREE

DeepSeek: R1 (free)

Text 2 text

# Free

DeepSeek R1 已经发布：性能与 OpenAI o1 相当，但为开源且具有完全开放的推理令牌。它的参数量为 671B，在推理过程中活跃的参数为 37B。完全开源模型 & 技术报告。 MIT 许可证：自由提炼和商业化！ ...

DeepSeek 160K context $0 input tokens $0 output tokens

DeepSeek: R1 (nitro)

Text 2 text

DeepSeek 160K context $3/M input tokens $8/M output tokens