Mixture of experts

揭开DeepSeek-V3的神秘面纱：如何以超低成本提升大语言模型的推理效率？！

Rifx.Online
Programming , Machine Learning , Natural Language Processing
29 Dec, 2024

介绍 DeepSeek-V3 已成为开源爱好者和企业用户的新重磅产品。该模型由一家中国的人工智能研究公司开发，致力于“开源精神 + 长期主义以实现包容性AGI”，旨在缩小封闭源巨头（如 GPT-4o 和 Claude-Sonnet-3.5\）与开源社区之间的差距。 DeepSeek-V3 采用 Mixture-of-Experts (MoE) 设

DeepSeek V3

Text 2 text

# New # Hot

1. 介绍我们推出了 DeepSeek-V3，这是一款强大的混合专家 (MoE) 语言模型，拥有 671B 的总参数，其中每个令牌激活 37B。为了实现高效推理和具有成本效益的训练，DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构，这些架构在 DeepSeek-V2 中得到了充分验证。此外，DeepSeek-V3 首创了一种无辅助损失的 ...

DeepSeek 62.5K context $0.14/M input tokens $0.28/M output tokens

DeepSeek V3：超越竞争对手的开源大语言模型技术解析

Rifx.Online
Natural Language Processing , Machine Learning , Data Science
27 Dec, 2024

优于 Claude 3.5 Sonnet、GPT-4o、Llama3.1 405B 年末将至，刚刚，中国的 DeepSeek 发布了其开源模型 DeepSeek-v3，该模型在性能上超越了所有主要竞争者，包括 Claude3.5 Sonnet、GPT-4o、Qwen2.5 Coder 等等。该模型的表现如同怪兽，显然，我们可以说 DeepSeek-V3 是迄今

DeepSeek-VL2：利用专家视觉语言混合模型促进多模态理解

Rifx.Online
Natural Language Processing , Computer Vision , Data Science
19 Dec, 2024

DeepSeek-VL2 在视觉语言模型领域代表了一个重要的飞跃，提供了先进的多模态理解能力。这一创新系列的大型混合专家（MoE）视觉语言模型在其前身 DeepSeek-VL 的基础上，提供了在广泛任务中的卓越性能。让我们深入探讨 DeepSeek-VL2 的关键方面，探索其架构、能力和潜在应用。在开始之前，如果您正在寻找一个一体化的 AI 平台，可以在一个地方管理您所有的 A

Databricks: DBRX 132B Instruct

Text 2 text

DBRX 是由 Databricks 开发的新开源大语言模型。在 132B 的参数量下，它在语言理解、编程、数学和逻辑的标准行业基准测试中超越了现有的开源 LLM，如 Llama 2 70B 和 Mixtral-8x7b。它采用了细粒度的专家混合（MoE）架构。任何输入上都有 36B 参数处于激活状态。它在 12T 的文本和代码数据上进行 ...

Databricks 32K context $1.08/M input tokens $1.08/M output tokens

解锁混合专家 (MoE) LLM：你的 MoE 模型可以免费嵌入模型

Rifx.Online
Machine Learning , Natural Language Processing , Data Science
04 Nov, 2024

Mixture-of-experts (MoE) LLM 可以作为免费的嵌入模型使用。我最近发现了一篇有趣的论文，标题为“你的 Mixture-of-Experts LLM 秘密地是一个免费的嵌入模型。”[1] 最近的 LLM 架构趋势是解码器模型，这对于嵌入模型并不适用，因为它们的注意力方法。然而，作者揭示了 Mixture-of-Experts (MoE) LLM 可以作