Moe

探索 DeepSeek 第 3 版：技术概览

Rifx.Online
Programming , Machine Learning , Natural Language Processing
09 Jan, 2025

DeepSeek 版本 3 的发布在 AI 社区引发了相当大的兴奋，得益于其卓越的能力和成本效益。作为一个在中国开发的先进开放权重大型语言模型 (LLM)，它利用专家混合 (MoE) 架构来优化性能，在处理过程中仅激活其 6710 亿参数中的 370 亿。多头潜在注意力 (MLA)、FP8 混合精度和多令牌预测等创新进一步提升了其效率和有效性。DeepSeek V3 在 MMLU-Pro、M

解锁混合专家 (MoE) LLM：你的 MoE 模型可以免费嵌入模型

Rifx.Online
Machine Learning , Natural Language Processing , Data Science
04 Nov, 2024

Mixture-of-experts (MoE) LLM 可以作为免费的嵌入模型使用。我最近发现了一篇有趣的论文，标题为“你的 Mixture-of-Experts LLM 秘密地是一个免费的嵌入模型。”[1] 最近的 LLM 架构趋势是解码器模型，这对于嵌入模型并不适用，因为它们的注意力方法。然而，作者揭示了 Mixture-of-Experts (MoE) LLM 可以作