Fp8

探索 DeepSeek 第 3 版：技术概览

Rifx.Online
Programming , Machine Learning , Natural Language Processing
09 Jan, 2025

DeepSeek 版本 3 的发布在 AI 社区引发了相当大的兴奋，得益于其卓越的能力和成本效益。作为一个在中国开发的先进开放权重大型语言模型 (LLM)，它利用专家混合 (MoE) 架构来优化性能，在处理过程中仅激活其 6710 亿参数中的 370 亿。多头潜在注意力 (MLA)、FP8 混合精度和多令牌预测等创新进一步提升了其效率和有效性。DeepSeek V3 在 MMLU-Pro、M