Sky-T1-32B-预览:开源 LLM 性能优于 OpenAI-o1
UC Berkeley的Sky-T1–32B-预览详情
所以,首个大型生成性AI发布来了,UC Berkeley开源的LLM Sky-T1–32B在数学和编码基准测试中超越了OpenAI的o1。
什么是 Sky-T1–32B-Preview?
它是一个 32-亿-参数推理模型,旨在在数学推理和编码任务中表现出色。
关键特性
1. 高性能推理
- 竞争性能:在流行的推理和编码基准上与先进模型如 o1-preview 的性能相匹配。
- 双领域专长:在 数学推理(例如,AIME,MATH 数据集)和 编码任务(例如,APPs,TACO 数据集)方面表现出色。
2. 成本效益高的微调
- 经济实惠的训练:微调费用低于 $450,证明高水平的推理能力可以高效且经济地实现。
- 高效的训练:在 8 H100 GPUs 上使用 DeepSpeed Zero-3 offload 完成,耗时 19 小时。
3. 完全开源
- 透明性: 所有资源,包括 数据、代码、模型权重 和 技术报告,都是开源的,以赋能学术界和开源社区。
- 可重复性: 提供一个单一的存储库用于数据整理、训练和评估,使得复制和构建变得简单。
4. 高级数据整理
- 高质量数据: 使用 17K 精选数据集,涵盖数学、编码、科学和谜题。
- 拒绝采样: 通过丢弃不正确的样本并重新格式化输出以改善解析,确保数据质量。
- 平衡数据混合: 结合具有挑战性的数学问题(例如,NuminaMATH)和复杂的编码任务(例如,APPs,TACO),以增强跨领域的推理能力。
5. 模型架构
- 基础模型:从 Qwen2.5–32B-Instruct 微调而来,这是一个没有内在推理能力的开源模型。
- 训练细节:训练了 3 个周期,学习率为 1e-5,批量大小为 96。
一些关键发现
团队在开发模型时发现了两个主要见解:
模型大小重要:较小的模型(7B,14B)显示出有限的改进,而32B模型则提供了显著的提升。
数据混合重要:平衡数学和编码数据对于在两个领域的最佳表现至关重要。
性能与指标
数学任务:Sky-T1 在 Math500 中稍微优于 o1,在 AIME2024 中显著优于 o1\。
编码任务:虽然 o1 在较简单的编码任务 (LiveCodeBench-Easy) 中表现出色,但 Sky-T1 在较难的任务 (Medium 和 Hard) 中表现更好。
常识知识:o1 在 GPQA-Diamond 上具有优势。
如何使用 Sky-T1–32B-Preview?
模型权重可以在 HuggingFace 上获取,具体链接如下
总结,
总之,加州大学伯克利分校的 Sky-T1–32B-Preview 在开源 AI 领域标志着一个重要的里程碑,在关键的数学和编码基准测试中超越了 OpenAI 的 o1。这款完全开源的 320 亿参数推理模型不仅提供了高性能的结果,还在可负担性和可获取性上树立了新的标准。通过公开其数据、代码和模型权重,团队赋予了更广泛的社区进一步创新和基于此工作的能力。Sky-T1 体现了开放科学中的协作努力如何使尖端 AI 进展对所有人实现民主化。