Ministral 8B
- 125K Context
- 0.1/M Input Tokens
- 0.1/M Output Tokens
- Mistralai
- Text 2 text
- 17 Oct, 2024
Ministral 8B 是一个具有 8B 参数的模型,采用独特的交错滑动窗口注意力模式,以实现更快、更节省内存的推理。该模型专为边缘使用案例设计,支持最长 128k 的上下文长度,并在知识和推理任务中表现出色。它在低于 10B 的类别中优于同类产品,非常适合低延迟、注重隐私的应用。
Ministral 8B 是一个具有 8B 参数的模型,采用独特的交错滑动窗口注意力模式,以实现更快、更节省内存的推理。该模型专为边缘使用案例设计,支持最长 128k 的上下文长度,并在知识和推理任务中表现出色。它在低于 10B 的类别中优于同类产品,非常适合低延迟、注重隐私的应用。
Ministral 3B 是一个针对设备和边缘计算优化的 3B 参数模型。它在知识、常识推理和函数调用方面表现出色,在大多数基准测试中超越了像 Mistral 7B 这样的更大模型。支持最长 128k 的上下文长度,非常适合高效推理的代理工作流和专业任务的协调。 ...
一个高性能、行业标准的7.3B参数模型,针对速度和上下文长度进行了优化。 Mistral 7B Instruct有多个版本变体,本文旨在介绍最新版本。 ...
由Mistral与NVIDIA合作构建的12B参数模型,具有128k的上下文长度。 该模型是多语言的,支持英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语。 它支持函数调用,并在Apache 2.0许可证下发布。 ...
该模型目前由 Mistral-7B-v0.2 驱动,并结合了比 Mistral 7B 更“优越”的微调,灵感来自社区的工作。它最适合用于大批量处理任务,在这些任务中,成本是一个重要因素,但推理能力并不是关键。 ...
Mistral的官方指令微调版本Mixtral 8x22B。它使用141B中的39B活跃参数,为其规模提供无与伦比的成本效益。它的优点包括:强大的数学、编码和推理能力 大上下文长度(64k) 流利的英语、法语、意大利语、德语和西班牙语在发布公告中查看基准测试[这里](https://mistra ...
一个由Mistral AI开发的预训练生成稀疏专家混合模型,包含8个专家(前馈网络),总计47B参数。基础模型(未针对指令进行微调) - 请参见Mixtral 8x7B Instruct以获取经过指令微调的模型。 #moe ...