Vit mlp llm
MiniMax-01 是一个结合了 MiniMax-Text-01 进行文本生成和 MiniMax-VL-01 进行图像理解的模型。它拥有 4560 亿个参数,每次推理激活 459 亿个参数,并且可以处理多达 400 万个 token 的上下文。 文本模型采用混合架构,结合了 Lightning Attention、Softmax Attention 和专家混合(MoE)。图像模型采用“ViT ...
MiniMax-01 是一个结合了 MiniMax-Text-01 进行文本生成和 MiniMax-VL-01 进行图像理解的模型。它拥有 4560 亿个参数,每次推理激活 459 亿个参数,并且可以处理多达 400 万个 token 的上下文。 文本模型采用混合架构,结合了 Lightning Attention、Softmax Attention 和专家混合(MoE)。图像模型采用“ViT ...