DeepSeek V2.5

模型已不可用

DeepSeek-V2.5 是一个升级版本，结合了 DeepSeek-V2-Chat 和 DeepSeek-Coder-V2-Instruct。新模型整合了前两个版本的通用能力和编码能力。

DeepSeek-V2 Chat 是 DeepSeek-V2 的对话微调版本，属于混合专家（MoE）语言模型。它总共包含 236B 个参数，其中每个 token 激活 21B。

与 DeepSeek 67B 相比，DeepSeek-V2 的性能更强，同时节省了 42.5% 的训练成本，减少了 93.3% 的 KV 缓存，并将最大生成吞吐量提升至 5.76 倍。

DeepSeek-V2 在标准基准测试和开放式生成评估中表现出色。

Related Posts