Type something to search...
DeepSeek V2.5

DeepSeek V2.5

  • 125K Context
  • 0.14/M Input Tokens
  • 0.28/M Output Tokens
模型已不可用

DeepSeek-V2.5 是一个升级版本,结合了 DeepSeek-V2-Chat 和 DeepSeek-Coder-V2-Instruct。新模型整合了前两个版本的通用能力和编码能力。

DeepSeek-V2 Chat 是 DeepSeek-V2 的对话微调版本,属于混合专家(MoE)语言模型。它总共包含 236B 个参数,其中每个 token 激活 21B。

与 DeepSeek 67B 相比,DeepSeek-V2 的性能更强,同时节省了 42.5% 的训练成本,减少了 93.3% 的 KV 缓存,并将最大生成吞吐量提升至 5.76 倍。

DeepSeek-V2 在标准基准测试和开放式生成评估中表现出色。

Related Posts