MiniMax-Text-01:具有最大上下文窗口的 LLM
开源 LLM,具有 400 万个标记的上下文长度窗口
这家中国初创公司去年推出了 MiniMax AI 视频生成器,现推出了一款新的 LLM,MiniMax-Text-01,拥有最长的输入上下文窗口,即 400 万个标记。
这太疯狂了。为什么?
这几乎相当于大约 60 本书。
包含 400 万个标记的书籍数量取决于每本书的字数和每个单词的平均标记数等因素。
每个单词的平均标记数: 大约 1.2 个标记/单词(针对英语文本的常见估计)。
每本书的字数: 一本典型的书大约有 60,000–80,000 个单词。
计算:
每本书的标记数 ≈ 60,000 个单词 × 1.2 个标记/单词 = 72,000 个标记/书。
400 万个标记的书籍数量 = 4,000,000 ÷ 72,000 ≈ 55–60 本书。
因此,大约 55–60 本平均大小的书 加起来就是 400 万个标记。
关键特性:
- 参数数量: 总参数为4560亿,每个token激活45.9亿。
- 混合架构: 结合了Lightning Attention、Softmax Attention和混合专家(MoE)。
- 长上下文处理: 能够处理极长的上下文——在训练期间可达100万个tokens,在推理期间可达400万个tokens。
- 效率: 设计用于高效处理超长输入,适合需要长期记忆的任务。
- 开源: 作为开源模型提供,具有成本效益的API访问。
- 高准确性: 在各种基准测试中实现了最先进的性能。
性能和指标
- 顶级准确性: MiniMax-Text-01 在大多数任务中是表现最佳或排名靠前的模型。
- 平衡性能: 它在推理、问答、提取和数学等多个领域表现出色。
- 与 GPT-4 及更高版本的竞争者: 在多个基准测试中,它提供了与领先模型如 GPT-4、Qwen 和 Claude 相当或更好的性能。
架构
- 总参数量: 4560亿。
- 每个令牌激活的参数量: 459亿,确保每个输入令牌的高效和自适应计算。
- 层数: 80,表示用于复杂表示的深度变换器架构。
注意力机制:
混合注意力:
使用 闪电注意力 以实现更快的计算。
每 7 层闪电注意力后面会放置一层 softmax 注意力 以提高准确性和稳定性。
- 注意力头: 64 个注意力头用于多方向注意力。
- 注意力头维度: 每个头的维度为 128。
专家混合模型 (MoE):
- 专家数量: 32,允许动态激活专业子网络。
- 专家隐藏维度: 9216.
- 路由策略: Top-2 路由,为每个 token 激活两个最相关的专家,以提高性能和效率。
专家混合模型 (MoE) 是一种模型设计,动态选择每个输入的少量专业“专家”(子网络)。它不是激活所有参数,而是将 tokens 路由到两个最相关的专家,从而提高效率和性能。这使得像 MiniMax-Text-01 这样的较大模型能够通过仅使用每个 token 所需的专家来更好地扩展。
Positional Encoding:
- 旋转位置嵌入 (RoPE): 应用于一半的注意力头维度,基础频率为 10,000,000,确保对超长上下文窗口的精确位置感知。
其他架构细节:
- 隐藏层大小: 6144,平衡模型容量和计算效率。
- 词汇表大小: 200,064,支持多种语言和专业领域的广泛多样的标记。
这种复杂的架构使 MiniMax-Text-01 能够高效处理大规模上下文窗口,同时在各种 NLP 任务中保持高准确性。
如何使用 MiniMax-Text-o1?
模型权重可以在 HuggingFace 上与代码一起获取。该模型稍大,因此您需要大量 GPU 内存才能运行该模型。
至此,结束了。MiniMax-text-o1 的性能看起来不错,但其独特卖点在于上下文窗口,现在可以一次性处理大量文本。希望您能试试看!!