Type something to search...
DeepSeek

DeepSeek

DeepSeek是一家成立于2021年的人工智能公司,由来自谷歌、微软和OpenAI等顶级科技公司的AI专家创立。公司致力于开发安全、高效且具有成本效益的大型语言模型,目标是让AI技术更易获取、更实用。

公司发展:

  • 2021年:公司成立,开始研发大型语言模型
  • 2023年:发布首个商用API服务和DeepSeek-V1模型
  • 2024年:推出DeepSeek-V2和Coder-V2系列,并获得广泛认可
  • 目前:持续优化模型性能,扩大应用场景

公司提供三个主要的模型系列:

DeepSeek-Coder-V2:

  • 专门针对代码开发优化的高性能模型
  • 在代码生成和理解方面表现优异
  • 支持多种编程语言和框架
  • 质量评分在所有DeepSeek模型中最高

DeepSeek-V2:

  • 通用型大语言模型
  • 在推理、知识和通用任务上表现出色
  • 与DeepSeek-Coder-V2并列最高质量模型
  • 在科学推理和定量分析方面表现突出

DeepSeek-V2.5:

  • 最新一代通用语言模型
  • 在输出速度方面略有提升(17 tokens/秒)
  • 保持了与前代相似的性能水平
  • 针对实际应用场景进行了优化

所有模型共同特点:

  • 支持128k的大规模上下文窗口
  • 完整支持函数调用(Function Calling)功能
  • 支持JSON模式输出
  • 首个token响应时间在1.12-1.15秒之间
  • 统一定价:每百万tokens 0.17美元(混合价格)

创新功能:

  • 上下文缓存技术(Context Caching on Disk)
  • 缓存命中可节省高达90%的API成本
  • 提示词缓存价格:$0.014/百万tokens

性能评估:

  • 在MMLU(推理与知识)测试中表现优异
  • 在GPQA(科学推理与知识)评估中得分较高
  • 在数学推理(MATH)测试中展现出色能力
  • 在代码评估(HumanEval)中取得优秀成绩
  • 在LMSys Chatbot Arena的ELO评分中表现突出

技术创新与研究:

  • 拥有多项核心技术专利
  • 与多所顶尖高校建立研究合作
  • 定期发布技术研究论文
  • 积极参与开源社区建设

企业愿景: DeepSeek致力于通过持续的技术创新和模型优化,为全球开发者和企业提供更优质、更经济的AI解决方案。公司特别注重模型的实用性、可靠性和成本效益,努力降低AI应用的门槛。

通过在模型质量、性能和价格之间取得平衡,DeepSeek正在AI领域建立起独特的竞争优势,并持续推动AI技术的民主化进程。

DeepSeek-V2.5 是一个升级版本,结合了 DeepSeek-V2-Chat 和 DeepSeek-Coder-V2-Instruct。新模型整合了前两个版本的通用能力和编码能力。 DeepSeek-V2 Chat 是 DeepSeek-V2 的对话微调版本,属于混合专家(MoE)语言模型。它总共包含 236B 个参数,其中每个 token 激活 21B。 ...

DeepSeek V2.5
Deepseek
125K context $0.14/M input tokens $0.28/M output tokens

1. 介绍 我们推出了 DeepSeek-V3,这是一款强大的混合专家 (MoE) 语言模型,拥有 671B 的总参数,其中每个令牌激活 37B。 为了实现高效推理和具有成本效益的训练,DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了充分验证。 此外,DeepSeek-V3 首创了一种无辅助损失的 ...

DeepSeek V3
DeepSeek
62.5K context $0.14/M input tokens $0.28/M output tokens

DeepSeek-V3 是 DeepSeek 团队最新的模型,基于之前版本的指令跟随和编码能力。该模型在近 15 万亿个标记上进行预训练,报告的评估显示该模型在性能上优于其他开源模型,并与领先的闭源模型相媲美。有关模型的详细信息,请访问 DeepSeek-V3 仓库以获取更多信息。 DeepSeek-V2 Chat 是 DeepSeek-V2 的对话微调版本,属于混合专家(MoE)语言模型。 ...

DeepSeek V3
DeepSeek
62.5K context $0.14/M input tokens $0.28/M output tokens

DeepSeek R1 Distill Llama 70B 是一个基于 Llama-3.3-70B-Instruct 的蒸馏大型语言模型,使用了 DeepSeek R1 的输出。该模型结合了先进的蒸馏技术,以在多个基准测试中实现高性能,包括:AIME 2024 p...

DeepSeek: DeepSeek R1 Distill Llama 70B
DeepSeek
128K context $0.23/M input tokens $0.69/M output tokens
FREE

DeepSeek R1 Distill Llama 70B 是一个基于 Llama-3.3-70B-Instruct 的蒸馏大型语言模型,使用了 DeepSeek R1 的输出。该模型结合了先进的蒸馏技术,以在多个基准测试中实现高性能,包括:AIME 2024 p...

DeepSeek: R1 Distill Llama 70B (free)
DeepSeek
128K context $0 input tokens $0 output tokens

DeepSeek R1 Distill Llama 8B 是一个基于 Llama-3.1-8B-Instruct 的蒸馏大型语言模型,使用来自 DeepSeek R1 的输出。该模型结合了先进的蒸馏技术,在多个基准测试中实现了高性能,包括:AIME 2024 pas...

DeepSeek: R1 Distill Llama 8B
DeepSeek
31.25K context $0.04/M input tokens $0.04/M output tokens

DeepSeek R1 Distill Qwen 1.5B 是一个基于 Qwen 2.5 Math 1.5B 的蒸馏大型语言模型,使用来自 DeepSeek R1 的输出。它是一个非常小且高效的模型,在数学基准测试中超越了 [GPT 4o 0513] ...

DeepSeek: R1 Distill Qwen 1.5B
DeepSeek
128K context $0.18/M input tokens $0.18/M output tokens

DeepSeek R1 Distill Qwen 14B 是一个基于 Qwen 2.5 14B 的蒸馏大型语言模型,使用来自 DeepSeek R1 的输出。它在各种基准测试中超越了 OpenAI 的 o1-min ...

DeepSeek: R1 Distill Qwen 14B
DeepSeek
62.5K context $0.15/M input tokens $0.15/M output tokens

DeepSeek R1 Distill Qwen 32B 是一个基于 Qwen 2.5 32B 的蒸馏大型语言模型,使用来自 DeepSeek R1 的输出。它在各种基准测试中超越了 OpenAI 的 o1-mini,达到了密集模型的新最先进结果。 其他基准测 ...

DeepSeek: R1 Distill Qwen 32B
DeepSeek
128K context $0.12/M input tokens $0.18/M output tokens
20% OFF

DeepSeek-R1 1. 介绍 我们介绍我们的第一代推理模型,DeepSeek-R1-Zero 和 DeepSeek-R1。 DeepSeek-R1-Zero 是通过大规模强化学习(RL)训练的模型,没有经过监督微调(SFT)作为初步步骤,表现出卓越的推理能力。 通过 RL,DeepSeek-R1-Zero 自然展现出许多强大且有趣的推理行为。 然而,DeepSeek-R ...

DeepSeek: R1
DeepSeek
160K context $3/M input tokens $8/M output tokens
FREE

DeepSeek R1 已经发布:性能与 OpenAI o1 相当,但为开源且具有完全开放的推理令牌。它的参数量为 671B,在推理过程中活跃的参数为 37B。 完全开源模型 & 技术报告。 MIT 许可证:自由提炼和商业化! ...

DeepSeek: R1 (free)
DeepSeek
160K context $0 input tokens $0 output tokens

DeepSeek R1 已经发布:性能与 OpenAI o1 相当,但为开源且具有完全开放的推理令牌。它的参数量为 671B,在推理过程中活跃的参数为 37B。 完全开源模型 & 技术报告。 MIT 许可证:自由提炼和商业化! ...

DeepSeek: R1 (nitro)
DeepSeek
160K context $3/M input tokens $8/M output tokens
Type something to search...