Type something to search...
S1 与 Deepseek-R1:令人惊讶的真相:50 美元的 Llm 真的能与之抗衡吗?

S1 与 Deepseek-R1:令人惊讶的真相:50 美元的 Llm 真的能与之抗衡吗?

引言

自2025年1月以来,深度搜索-R1模型一直备受关注

本周,一种名为s1的新推理LLM出现了。据说它仅使用1k数据,并且与顶级模型如开放AI的o1和深度搜索-R1的性能相匹配,成本仅为$50。

出于对其能力的好奇,我深入研究了关于s1的研究论文。以下是我发现的内容,以简单的问答格式呈现——以及一些思考和见解。

s1 是否真的匹配甚至超越 开放AI o1 和 深度搜索-R1?

图 1: s1–32B 是一个开放且样本高效的推理模型。 ex. = 用于推理微调的示例数量; BF = 预算强制。 [Source].

并不完全如此。

如图 1 所示,s1 并没有超越 o1 或者 o1-mini

至于 深度搜索-R1,s1 的表现不佳——尤其是与从 800K 数据中提炼出的 深度搜索-R1 的 32B 模型相比,这个差距是显著的。

因此,说 s1 “与” 这些顶级模型“竞争”并不完全公平。

s1 的表现如何?

如图 1 所示,s1 的整体表现优于 o1-previewSky-T1。它在 AIMEMATH 上也超越了 QWQ-32B,并且在 GPQA 上的表现优于 Bespoke-32B

此外,预算强制 方法被证明非常有效,使 s1 在 AIME 上的表现提升了令人印象深刻的 6.7%

s1 是否真的仅凭 1K 数据实现了这一点?

并不完全是。

1K 数据集是从一个更大的 59K 数据集 中精心挑选出来的,以节省训练时间。

Image 8

图 2:1K 训练 (s1K) 与完整数据集 (59K-full) 性能对比。 [来源]。

事实上,使用完整的 59K 示例 进行训练——其中包含 1K 子集中的所有内容——并没有显著提升 仅使用选定的 1K 的效果。

如何构建59K数据集

遵循了三个指导原则:

  • 质量:通过删除格式错误和不相关内容,确保高质量数据。
  • 难度:专注于更具挑战性的问题,以增强模型的推理能力。
  • 多样性:包括来自数学、物理和生物等各个领域的问题,以提高泛化能力。

该过程始于从16个不同来源收集59,029个推理问题,包括数学竞赛问题、科学问题等。

为了提高推理能力,引入了两个新数据集:s1-prob,包含来自斯坦福大学的博士级概率考试问题,以及s1-teasers,这是一个挑战性逻辑难题的集合。

每个问题都通过Google Gemini Flash Thinking API生成的推理轨迹响应进行了丰富,形成了**(问题,生成的推理轨迹和生成的解决方案)**三元组。此外,重复项被删除。

如何构建1k数据集?

该过程始于清理59K数据集,去除格式错误和失败的API生成,留下51,581个高质量样本

为了过滤难度,使用Qwen2.5–7B和Qwen2.5–32B对数据集进行了评估。任何两个模型都能轻松解决的问题都被丢弃,从而将数据集减少到24,496个更难的问题。

接下来,Claude 3.5 Sonnet对问题进行了分类,以确保覆盖50个学科,包括数学、物理和计算机科学。

在每个学科中,随机选择问题,优先考虑那些需要更长推理链的问题,以增强复杂性和多样性。该过程持续进行,直到选择出1,000个代表性问题,形成最终的s1K数据集

该数据集的优势在于其小而高质量的设计——来自多样化的数据集,经过严格筛选,并优化以高效训练强推理模型

如何训练 s1?

这里是 s1 的训练过程:

  • 选择基础模型: 选择 Qwen2.5–32B-Instruct 作为基础,模型已经具备了扎实的推理能力。
  • 准备训练数据: 使用之前的 s1K 数据集 进行微调。
  • 监督微调(SFT): 模型在 s1K 数据集 上进行训练,逐步学习遵循结构化的推理路径。
  • 训练设置: 使用 PyTorch FSDP 进行分布式训练,过程在 16 个 NVIDIA H100 GPU 上运行,仅用 26 分钟 完成。

s1真的只需要$50吗?

如果我们只计算最终微调步骤所使用的GPU时间,那么是的——甚至更少。s1–32B仅需要7个H100 GPU小时。

这个**$50数字****不包括**以下费用:

  • 数据收集
  • 测试和评估
  • 人工劳动
  • 预训练Qwen2.5–32B

因此,虽然微调的s1非常便宜,但开发s1的总成本要高得多。

什么是预算强制?

在推理阶段,s1 引入了一种 预算强制方法 来控制推理时间和计算。它是 一种简单的解码时间干预,控制思考令牌的数量:

  • 为了强制 最大值,在推理结束时附加 结束思考 令牌和 “最终答案:”,以强制提前退出并提示模型提供最佳答案。
  • 为了强制 最小值,抑制结束思考令牌,可能在推理路径中添加 “等待”,鼓励进一步反思。

Image 9

图 3. 使用 s1–32B 的预算强制。模型尝试在“…是 2。”后停止,但它抑制了结束思考令牌分隔符,而是附加了“等待”,导致 s1–32B 自我纠正其答案。 [来源]。

以问题为例:“‘raspberry’中有多少个‘r’?”

初始推理: 模型逐个计算‘r’:第1个‘r’ → 计数 = 1, …, 第7个‘r’ → 计数 = 2.

它在第8步停止并给出错误答案:2(正确答案是 3)。

通常,模型会停止,假设它的第一次尝试是正确的。但在这里,预算强制干预

  • 系统 阻止停止信号,并在推理路径的末尾添加 “等待”强迫模型重新思考
  • 模型 重新检查 该词,意识到它漏掉了一个‘r’,并自我纠正为 3

通过 强制第二次查看,它 自我纠正 并提高了准确性。这让我想起了 Marco-o1 之前介绍过。通过在每个思考过程的末尾添加短语“等等!也许我犯了一些错误!我需要从头再想一遍。”引入了反思机制。

评论

在阅读完整篇论文后,我发现 s1DeepSeek-R1冷启动阶段 有些相似。DeepSeek-R1 使用了更长的推理链(数千步),并在基础模型获得基本推理能力后,进行强化学习。

你也可以将 s1 视为 本质上是将 DeepSeek-R1 671B 模型提炼到 32B 版本的过程。

在我看来,s1 的关键贡献 在于其训练数据的开源。也许 “小型 SFT 数据 + 测试时缩放” 可以成为增强 LLM 推理能力的新范式。

此外,我有一些担忧。

  • 正如我们之前讨论的,这种反思方法仍然过于简单,缺乏更细致的控制。此外,它尚未经过充分测试,以确定再生路径是否足够多样化,或者是否能有效避免重复过去的错误。
  • 没有与编程相关的测试,基准测试也不涵盖任何编程任务。
  • 它没有完全解决 监督微调 (SFT)预算强制 (BF) 之间哪种方法更有效的问题。图 1 显示了没有 BF 的 SFT 结果(s1 w/o BF),但没有包括 Qwen2.5–32B 在没有 SFT 的情况下的结果,其中思考是通过 BF 直接扩展的。

Related Posts

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

AI 研究报告和论文写作 合并两个系统指令以获得两个模型的最佳效果 Perplexity AI 的 Deep Research 工具提供专家级的研究报告,而 OpenAI 的 ChatGPT-o3-mini-high 擅长推理。我发现你可以将它们结合起来生成令人难以置信的论文,这些论文比任何一个模型单独撰写的都要好。你只需要将这个一次性提示复制到 **

阅读更多
让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

Non members click here作为一名软件开发人员,多年来的一个发现总是让我感到惊讶,那就是人们还在 Excel

阅读更多
使用 ChatGPT 搜索网络功能的 10 种创意方法

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如,提示和输出 你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务,而不仅仅是基本的网络搜索吗? 对于那些不知道的人,ChatGPT 新的“搜索网络”功能提供实时信息。 截至撰写此帖时,该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

阅读更多
掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

10 个常见问题解答 本文是我推出的一个名为“10 个常见问题解答”的新系列的一部分。在本系列中,我旨在通过回答关于该主题的十个最常见问题来分解复杂的概念。我的目标是使用简单的语言和相关的类比,使这些想法易于理解。 图片来自 [Solen Feyissa](https://unsplash.com/@solenfeyissa?utm_source=medium&utm_medi

阅读更多
在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和科技这样一个动态的行业中,保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析,还是希望通过人工智能转变传统领域如法律,这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表,可以助力你的职业发展,并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

阅读更多
揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

在AI军备竞赛中分辨事实与虚构 DeepSeek AI真的是它所宣传的游戏规则改变者,还是仅仅聪明的营销和战略炒作?👀 虽然一些人将其视为AI效率的革命性飞跃,但另一些人则认为它的成功建立在借用(甚至窃取的)创新和可疑的做法之上。传言称,DeepSeek的首席执行官在疫情期间像囤积卫生纸一样囤积Nvidia芯片——这只是冰山一角。 从其声称的550万美元培训预算到使用Open

阅读更多
Type something to search...