DeepSeek V3
- 62.5K Context
- 0.14/M Input Tokens
- 0.28/M Output Tokens
- DeepSeek
- Text 2 text
- 27 Dec, 2024
模型已不可用
DeepSeek-V3 是 DeepSeek 团队最新的模型,基于之前版本的指令跟随和编码能力。该模型在近 15 万亿个标记上进行预训练,报告的评估显示该模型在性能上优于其他开源模型,并与领先的闭源模型相媲美。有关模型的详细信息,请访问 DeepSeek-V3 仓库以获取更多信息。
DeepSeek-V2 Chat 是 DeepSeek-V2 的对话微调版本,属于混合专家(MoE)语言模型。它总共有 236B 个参数,其中每个标记激活 21B 个。
与 DeepSeek 67B 相比,DeepSeek-V2 实现了更强的性能,同时节省了 42.5% 的训练成本,减少了 93.3% 的 KV 缓存,并将最大生成吞吐量提升至 5.76 倍。
DeepSeek-V2 在标准基准测试和开放式生成评估中表现出色。