DeepSeek V2.5
- 125K Context
- 0.14/M Input Tokens
- 0.28/M Output Tokens
- Deepseek
- Text 2 text
- 14 May, 2024
模型已不可用
DeepSeek-V2.5 是一个升级版本,结合了 DeepSeek-V2-Chat 和 DeepSeek-Coder-V2-Instruct。新模型整合了前两个版本的通用能力和编码能力。
DeepSeek-V2 Chat 是 DeepSeek-V2 的对话微调版本,属于混合专家(MoE)语言模型。它总共包含 236B 个参数,其中每个 token 激活 21B。
与 DeepSeek 67B 相比,DeepSeek-V2 的性能更强,同时节省了 42.5% 的训练成本,减少了 93.3% 的 KV 缓存,并将最大生成吞吐量提升至 5.76 倍。
DeepSeek-V2 在标准基准测试和开放式生成评估中表现出色。