DeepSeek-R1的强化学习炼金术——一场关于推理、自治与涌现的哲学革命

当人们还在为 DeepSeek-V3 那令人瞠目的成本效率和工程奇迹而惊叹时，DeepSeek-AI 悄然完成了一场更为根本的范式转移。这次，他们不再是单纯追求“更聪明的模型”，而是开始探索一个更为本质的问题：智能，能否在不被告知如何思考的情况下，自行学会思考？

DeepSeek-R1 给出了答案。这不仅仅是一篇技术报告，而是一份哲学宣言。它宣告：大语言模型的推理能力可以被激励，而非被教授；可以被涌现，而非被编程。它是强化学习在语言智能领域的一次纯粹实验，一场跨越千年的古老命题——知识是先验的还是经验的？——在硅基生命体上的重新演绎。

今天，我们将以极客之眼，拆解这场炼金术的核心配方。我们将看到，GRPO 算法如何成为驱动智慧的引擎，规则奖励如何成为指引方向的北极星，而“顿悟时刻”如何在训练的熔炉中自发地、戏剧性地涌现。这将是中文世界对 DeepSeek-R1 最深刻、最彻底的解读。

第一章：纯粹 RL 的圣杯——DeepSeek-R1-Zero 与智慧的自发涌现

DeepSeek-R1 的故事，始于一个大胆到近乎狂妄的假设：我们不需要手把手的教学（SFT），只需要提供正确的激励和足够自由的探索空间，强大的基础模型就能自己学会推理。 这个假设催生了 DeepSeek-R1-Zero——一个完全绕过传统监督微调阶段，直接用强化学习从 DeepSeek-V3-Base 锻造出的推理巨兽。

1.1 为什么 SFT 可能成为枷锁？

传统的大模型后训练遵循一个看似理所当然的流程：先在高品质的人工标注数据上进行监督微调（SFT），让模型“学会”如何给出好答案，然后再用 RLHF（基于人类反馈的强化学习）来微调偏好。这被称为“先模仿，后优化”。

但这个流程隐藏着一个根本性的缺陷。人类的思维轨迹，那些被精心标注的 CoT 数据，并不是最优解，甚至可能是有偏见和误导性的。人类在解释推理过程时，往往会省略掉关键的“反思”（reflection）、“验证”（verification）和“回溯”（backtracking）步骤。这些步骤对于解决复杂问题至关重要，但它们往往是内隐的、混乱的，难以被清晰地外化为训练数据。

正如报告所述：“人类定义的推理模式可能限制模型探索，而无限制的 RL 训练能够更好地激励 LLM 中新颖推理能力的涌现。” DeepSeek-R1-Zero 的设计哲学正是基于此：抛开人类先验，让模型在 RL 的“自然选择”压力下，自己去发现最佳的思考路径。

1.2 GRPO：智慧的引擎

要实现这一雄心，需要一个强大而高效的 RL 算法。DeepSeek-R1 选择了 Group Relative Policy Optimization（GRPO），这是从 DeepSeek-V2 时代延续并打磨至今的利器。为什么是 GRPO，而不是更为主流的 PPO（Proximal Policy Optimization）？

PPO 的核心问题是：它需要一个与策略模型（Actor）规模相当的价值模型（Critic）。这个 Critic 要负责估计当前状态下的“预期未来回报”（即优势函数 Advantage）。这在长程推理任务中带来了两个灾难性问题：

内存和计算开销翻倍。一个 671B 的 Actor 就需要另一个 671B 的 Critic。
训练极其困难。Critic 需要仅凭最终的结果奖励，去准确评估生成过程中每一个中间 token 的价值。当模型在生成时进行反思和修改时，早期生成的 token 可能在后文被推翻，这使得基于部分响应的价值估计几乎不可能。这对于长思维链模型尤为致命。

GRPO 的解决方案堪称神来之笔：它直接抛弃了价值模型！

它如何估计优势？GRPO 的方法是，对于同一个问题，让旧策略模型生成一组（Group，通常为 16 或 64 个）不同的输出 $\{o_1, o_2, \dots, o_G\}$ 。然后，使用一个基于规则的奖励函数 $r_i$ 对这组输出进行打分。最后，每个输出的优势 $A_i$ 被定义为该输出在组内的标准化得分：

A_i = \frac{r_i - \text{mean}(\{r_1, r_2, \dots, r_G\})}{\text{std}(\{r_1, r_2, \dots, r_G\})}

这个公式的精妙之处在于：

无需价值模型：它通过组内比较来定义“好”，而不是依赖于对环境的绝对估值。一个回答的好坏，是通过与它的“兄弟姐妹”们比较得出的。
自适应基线： $\text{mean}$ 和 $\text{std}$ 在每个问题上动态计算，提供了一个自适应的、任务感知的基线。对于简单问题，所有回答得分可能都高，基线就高；对于难题，都低，基线就低。这天然防止了模型在简单题上过度自信或在难题上盲目悲观。

此外，GRPO 直接在损失函数中加入对 KL 散度（KL divergence）的惩罚项，防止策略更新过快导致训练崩溃。与 PPO 在每个 token 奖励中隐含惩罚 KL 的方式不同，GRPO 的方式更直接，也避免了 PPO 可能因累积 KL 惩罚而变相惩罚长回答的副作用——这对于旨在培养长思维链的模型来说，是决定性的优势。

在训练 DeepSeek-R1-Zero 时，团队设置了严苛的条件： $G=16$ （每组采样 16 个输出，深度为 1，最大长度从 32,768 扩展到 65,536），KL 系数 0.001，采样温度 1。每个训练步包含 32 个独一无二的问题，总批次大小为 512。每隔 400 步，参考模型会被更新为最新的策略模型。这套精密的 RL 引擎为智慧的涌现准备好了温床。

1.3 奖励即是命运：规则之神

强化学习的核心是奖励函数。如果奖励信号存在漏洞，模型就会找到捷径进行“奖励黑客”行为，导致目标的对齐失败。为确保奖励的纯净和可靠，DeepSeek-R1-Zero 采用了一套基于规则的奖励系统，主要由两部分组成：

准确性奖励 ( $\text{Reward}_{acc}$ )：对于数学题，要求模型将最终答案放在 \boxed{} 中，然后进行严格的字符串匹配或符号计算验证；对于代码题，使用编译器运行测试用例进行客观评判。没有任何模棱两可的余地。
格式奖励 ( $\text{Reward}_{format}$ )：强制模型将推理过程放在 <think> 标签内，将最终答案放在 <answer>...</answer> 或 \boxed{} 中。这纯粹是为了可读性和解析性，不涉及任何内容偏见。

一个至关重要的设计决策是：他们明确排除了基于神经网络的奖励模型（Neural Reward Model），无论是结果导向还是过程导向（PRM）。 他们观察到，在大规模 RL 训练中，Neural Reward Model 极易被“奖励黑客”攻克，且重训奖励模型会引入巨大的计算开销和训练管道的复杂性。规则，只有规则，才能成为 RL 训练中唯一可靠的北极星。这虽然将训练范围限制在可被精确验证的领域（数学、代码、逻辑），但也确保了训练信号的绝对清白。

1.4 “顿悟时刻”：行为涌现的奇观

在这样纯粹的 RL 训练下，令人震撼的现象发生了。

1.4.1 AIME 分数的飞跃 DeepSeek-R1-Zero 在 AIME 2024 基准上的性能轨迹展示了惊人的成长。随着 RL 训练的进行，其 pass@1 分数从最初的 15.6% 飙升至 77.9%。当使用 self-consistency 时，cons@16 分数更是达到了惊人的 86.7%，超越了人类参赛者的平均水平。这在仅仅依靠纯 RL 且无任何 SFT 数据的条件下，是一个历史性的成就。

1.4.2 思维长度的自然增长 更为深刻的变化在于：模型的平均响应长度（即思考时间）在训练过程中自主增加。模型没有被人为教导“一步一步思考”，却自己学会了：为了解决更复杂的问题，我需要花更多时间、生成更多 token 来探索和验证。这种基于内在需求驱动的适应性计算资源分配，是高级智能的标志。

1.4.3 “Aha Moment”：反思行为的天性觉醒 报告中最具戏剧性的一幕是“顿悟时刻”（Aha Moment）。在一个数学问题的解法中，模型生成到一半时，突然写道：

“Wait, wait. Wait. That's an aha moment I can flag here.”

然后，它开始重新评估之前的步骤，识别出可能存在的错误，并转向了新的推理路径。这个行为完全没有被硬编码，是 RL 奖励机制下自然演化的产物。

更系统的分析统计了反思性词汇（如“wait”、“mistake”、“however”、“but”、“retry”、“error”、“verify”、“evaluate”、“check”）的出现频率。随着训练的进行，这些词汇的出现频率增长了 5 到 7 倍。而“wait”这个词的独特出现模式——在训练早期几乎不存在，中期偶尔出现，而在 8000 步后急剧爆发——标志着模型在特定训练阶段习得了一种特定的反思策略。

这一切都指向一个结论：RL 没有显式地教模型如何推理，它只是提供了一个环境——在这里，正确答案是唯一的生存法则。为了生存，模型必须自己进化出反思、验证、回溯等高级问题解决策略。 DeepSeek-R1-Zero 的训练过程，是“激励”而非“教授”这一哲学理念最纯粹、最有力的证明。

第二章：从野性到驯服——DeepSeek-R1 与多阶段炼金术

尽管 DeepSeek-R1-Zero 强大，但它如同未经打磨的原石，存在严重的可用性问题：可读性差、语言混合（中英文混杂）、以及在写作等非推理任务上能力不足。为了打造一个强大且实用的产品，DeepSeek-R1 继承 R1-Zero 的推理能力，并将其驯化和封装。这通过一个复杂的多阶段训练管道实现，堪称 AI 炼金术的顶峰。

2.1 第一阶段：冷启动——播下人性化的种子

DeepSeek-R1 的训练并非从零开始。第一步是收集数千条高质量的“冷启动”长 CoT 数据，对 DeepSeek-V3-Base 进行微调。这些数据的设计目标非常明确：

人性化的思维过程：采用第一人称视角（用“I”思考）、口语化的反思、清晰的格式。
语言一致性：用中文提问就用中文思考，用英文提问就用英文思考。
可读的最终总结：将复杂的推理过程提炼为一个清晰、格式规范的最终答案。

冷启动数据的创建本身就是一个精密的流程。他们使用 DeepSeek-R1-Zero（温度设为 1.0）为每个问题生成多个推理轨迹，筛选出格式正确且答案正确的样本，然后让 DeepSeek-V3 担任“编辑”，将这些野性的思维过程翻译、改写为更自然、更流畅的人类对话风格。对于代码任务，他们还开发了一套利用 DeepSeek-V2.5 生成候选测试用例并严格验证的方法。这些经过双重人工和模型验证的数据，为后续的 RL 训练提供了一个高质量、可控的起点。

这次冷启动 SFT 显著提升了模型在 IF-Eval（指令遵循）和 ArenaHard（人类偏好）上的表现，证明了人性化对齐的成功。但代价是，AIME 等推理基准上的性能出现了轻微下降（从 77.9 降至 59.0）。这恰恰证明了那个核心假设：纯粹、无约束的 SFT 数据，即使是高质量的，也会在一定程度上束缚模型的探索潜力。

2.2 第二阶段：推理 RL——在约束中回归野性

接下来，是重新激活 R1 推理能力的关键一步。DeepSeek-R1 Dev1 模型开始接受大规模的 RL 训练，其配置与 R1-Zero 类似，但加入了一个关键的约束：语言一致性奖励。

\text{Reward}_{language} = \frac{\text{Num}(\text{Words}_{target})}{\text{Num}(\text{Words})}

这个奖励直接加到总奖励中，强制模型在思维链中使用与问题一致的目标语言。尽管消融实验表明这会导致轻微的推理性能下降，但它对提升最终用户体验至关重要。

这次 RL 训练将 AIME 分数从 59.0 拉回至 74.0，并在代码（LiveCodeBench）和 STEM（GPQA Diamond）基准上取得了巨大进步。更重要的是，模型的推理能力得到了大幅增强，同时其他通用任务的提升则相对有限。这说明，这一阶段的 RL 高度聚焦于推理核心的精细化。

2.3 第三阶段：拒绝采样与 SFT——海纳百川，再铸辉煌

为了让模型既擅长推理，又能处理写作、翻译、角色扮演等多样任务，DeepSeek 团队执行了一次大规模的拒绝采样（Rejection Sampling） 和 SFT 流程。

数据生成：使用第二阶段 RL 训练后的一个中间检查点（Dev2）作为生成器。为每个问题采样多个响应，只保留那些答案正确的。
数据扩展：除了原 RL 阶段的数学、代码、STEM、逻辑数据外，还从 DeepSeek-V3 的 SFT 数据集中吸纳了大量非推理数据，例如写作、事实问答、自我认知、翻译，甚至包括程序修复和前端开发等软件工程数据。
总数据集：最终收集了约 60 万推理相关的训练样本和 20 万非推理样本。总计约 80 万条高质量的、融合了推理能力和通用技能的 SFT 数据。

这一阶段（Dev3）的结果是惊人的：AIME 分数进一步提升至 78.1，而 AlpacaEval 2.0 分数从 55.8 跃升至 62.1，Aider-Polyglot 分数更是从 25.6 暴涨至 44.8。模型在推理和实用性上取得了完美的平衡。

2.4 第四阶段：全场景 RL——终极对齐与升华

最后的工序，是将 Dev3 模型置于一个混合了推理数据（使用规则奖励）和通用数据（使用基于模型的奖励）的 RL 环境中，进行全面的偏好对齐。

奖励模型：他们专门训练了有用性奖励模型和安全性奖励模型。有用性 RM 基于 6.6 万对来自 Arena-Hard 格式提示的偏好数据训练，采用成对比较损失，并特别过滤掉长度偏差。安全性 RM 则基于 10.6 万条标注为“安全”或“不安全”的数据，以点式方式训练。
训练细节：此阶段的温度降低至 0.7，以防止高温度导致文本不连贯。通用数据和基于偏好的奖励信号仅在最后的 400 步中加入，以避免过度使用造成奖励黑客。

最终，集大成的 DeepSeek-R1 诞生了。它在 AlpacaEval 2.0 和 ArenaHard 上取得了质变（分别跃升至 87.6 和 92.3），同时推理基准也维持了顶尖水平。一个既聪明绝顶，又善于沟通、安全可靠的六边形战士，就此锻造完成。

第三章： R1 的智慧图谱——能力、分析与蒸馏

3.1 全面碾压：基准测试下的霸主之证

报告的数据无可辩驳地证明了 DeepSeek-R1 的统治力。在 AIME 2024 上，它以 79.8% 的 pass@1 比肩 o1-1217；在 MATH-500 上更是达到 97.3%，几乎满分；在 Codeforces 上，它击败了 96.3% 的人类参赛者；在 MMLU、GPQA Diamond 等知识密集型任务上同样位于第一梯队。它在人类偏好平台 Chatbot Arena 上与全球最强模型并列第一的盛况也同样令人瞩目。

尤为重要的是，DeepSeek-R1 展现了强大的泛化能力。在 2025 年最新发布的 AIME 2025 上，它的分数（11.3/15，75%）与 o1（12.0/15）相差无几，其 AMC 12 成绩结合后，达到了美国数学奥林匹克（USAMO）的入选标准。这雄辩地证明，模型的推理能力并非来自对特定试题的背诵。

3.2 深度剖析：推理能力的多维度测量

DeepSeek-R1 的智慧并非一团混沌。它展现出鲜明的特征：

自适应计算资源分配（测试时计算缩放）：随着问题难度的增加，DeepSeek-R1 自动投入更多的“思考 token”来解决问题，花费 18,000+ token 解决最难的问题，而只花 <7,000 token 解决简单问题。这与非推理模型 GPT-4o 的恒定“浅层思考”模式形成天壤之别，后者通过多数投票虽能扩大总计算量，却因缺乏自我反思而无法提升单次求解的成功率。
能力优势领域：R1 在数论、代数上极强，但在几何、组合数学上仍有较大提升空间。
教育知识的结构性提升：从 V3 到 R1，在 MMLU-Pro 上提升最大的领域是 STEM（数学、物理等）。尤其在 MATH 和物理等类别，R1 相比 V3 实现了巨大的性能飞跃。甚至在非 STEM 领域，如社会科学和人文学科中，由于对问题理解的加深，长思维链也带来了意想不到的提升。

3.3 智慧的传承：蒸馏技术——用老师的智慧哺育学子

为了推动技术民主化，DeepSeek 团队将 DeepSeek-R1 的智慧“蒸馏”到了更小的模型中。他们使用第三阶段收集的 80 万条 SFT 数据，对 Qwen 和 LLaMA 系列的开源模型进行了微调，未进行额外的 RL 训练。

结果极具说服力：一个 1.5B 的蒸馏模型就在数学基准上超越了 GPT-4o 和 Claude 3.5 Sonnet。在 7B 到 70B 的规模上，蒸馏性能更是随模型规模稳定提升。关键对比实验揭示了更深层的结论：对一个 32B 模型进行大规模的纯 RL 训练（如 Qwen2.5-32B-Zero），其性能远不如从更强 R1 模型蒸馏得到的模型（DeepSeek-R1-Distill-Qwen-32B）。这清晰地表明，在较小规模上，继承强大教师模型的思维模式，比让一个小模型从零开始通过 RL 自己探索，要经济且有效得多。

第四章：教训与沉思——智慧之路上的失败与箴言

DeepSeek 团队极为坦诚地分享了他们的失败尝试，这些经验对任何致力于 AI 推理的研究者都价值连城。

过程奖励模型（PRM）之殇：尽管 PRM 理论上能在推理的每一步提供反馈，但他们发现，在通用推理任务中，明确定义一个“细粒度步骤”极其困难；判断中间步骤的对错又非常棘手；而一旦使用一个基于模型的 PRM，又立即面临“奖励黑客”的风险，且重训成本高昂。他们最终得出结论，在目前的大规模 RL 训练中，PRM 带来的收益与它引入的复杂性和开销不成正比。
蒙特卡洛树搜索（MCTS）的困境：受 AlphaGo 启发，他们尝试了 MCTS。但单词生成的搜索空间比围棋盘面大无数倍，指数级的爆炸令搜索举步维艰。而为每一步引导搜索而训练的价值模型（Value Model）同样遇到难以准确评估的困难。虽然 MCTS 能在推理时有效，但想通过它“自我搜索”来迭代提升模型性能，目前仍困难重重。

最后，报告提出的关键发现（Key Findings）——基座模型的规模至关重要（7B/16B 模型几乎无法从纯 RL 中受益），以及可靠验证器的神圣不可侵犯性——为我们指明了未来的方向。

尾声：纯粹 RL 的黎明与未竟之路

当我们站在 2026 年的开端，回望这篇发表于一年前的报告，DeepSeek-R1 的意义早已超越其分数本身。它是一场成功的科学实验，它验证了一条通往高级推理能力的、不同于传统模仿学习的全新路径。它证明了，在合适的奖励机制下，智慧行为可以被“激励”自发涌现，而非必须通过人类经验“灌输”。

报告中提到的“顿悟时刻”，不仅是模型的一个进步，更是对我们自身认知偏见的一次提醒——我们可能一直低估了模型自我进化的潜力，并过度依赖了人类的、也许并非最优的思维模式。

当然，先驱的道路从不平坦。R1 仍有局限：它在工具使用和结构化输出上尚不如人，有时会“过度思考”（overthinking），对提示词极为敏感，且多语言混合的问题仍未根治。但更重要的是，它指明了一个未来：任何能被一个可靠验证器（Verifier）有效评估的任务，无论对人类来说多么复杂，都将被这类纯粹的 RL 方法所征服。

DeepSeek-R1 的精神，不在于模型的参数规模，而在于它所践行的方法论：解放思想，实事求是。 它是一次勇敢的回归，回归到智能最本源的定义——在约束中，通过试错与反馈，自主发现通往真理的最优路径。这股“极客之道”的火焰，已经点燃，它将在通往通用人工智能的征途上，长久地、明亮地燃烧。