DeepSeek-R1的强化学习炼金术——一场关于推理、自治与涌现的哲学革命
当人们还在为 DeepSeek-V3 那令人瞠目的成本效率和工程奇迹而惊叹时,DeepSeek-AI 悄然完成了一场更为根本的范式转移。这次,他们不再是单纯追求“更聪明的模型”,而是开始探索一个更为本质的问题:智能,能否在不被告知如何思考的情况下,自行学会思考?
DeepSeek-R1 给出了答案。这不仅仅是一篇技术报告,而是一份哲学宣言。它宣告:大语言模型的推理能力可以被激励,而非被教授;可以被涌现,而非被编程。它是强化学习在语言智能领域的一次纯粹实验,一场跨越千年的古老命题——知识是先验的还是经验的?——在硅基生命体上的重新演绎。
今天,我们将以极客之眼,拆解这场炼金术的核心配方。我们将看到,GRPO 算法如何成为驱动智慧的引擎,规则奖励如何成为指引方向的北极星,而“顿悟时刻”如何在训练的熔炉中自发地、戏剧性地涌现。这将是中文世界对 DeepSeek-R1 最深刻、最彻底的解读。
第一章:纯粹 RL 的圣杯——DeepSeek-R1-Zero 与智慧的自发涌现
DeepSeek-R1 的故事,始于一个大胆到近乎狂妄的假设:我们不需要手把手的教学(SFT),只需要提供正确的激励和足够自由的探索空间,强大的基础模型就能自己学会推理。 这个假设催生了 DeepSeek-R1-Zero——一个完全绕过传统监督微调阶段,直接用强化学习从 DeepSeek-V3-Base 锻造出的推理巨兽。
1.1 为什么 SFT 可能成为枷锁?
传统的大模型后训练遵循一个看似理所当然的流程:先在高品质的人工标注数据上进行监督微调(SFT),让模型“学会”如何给出好答案,然后再用 RLHF(基于人类反馈的强化学习)来微调偏好。这被称为“先模仿,后优化”。
但这个流程隐藏着一个根本性的缺陷。人类的思维轨迹,那些被精心标注的 CoT 数据,并不是最优解,甚至可能是有偏见和误导性的。人类在解释推理过程时,往往会省略掉关键的“反思”(reflection)、“验证”(verification)和“回溯”(backtracking)步骤。这些步骤对于解决复杂问题至关重要,但它们往往是内隐的、混乱的,难以被清晰地外化为训练数据。
正如报告所述:“人类定义的推理模式可能限制模型探索,而无限制的 RL 训练能够更好地激励 LLM 中新颖推理能力的涌现。” DeepSeek-R1-Zero 的设计哲学正是基于此:抛开人类先验,让模型在 RL 的“自然选择”压力下,自己去发现最佳的思考路径。
1.2 GRPO:智慧的引擎
要实现这一雄心,需要一个强大而高效的 RL 算法。DeepSeek-R1 选择了 Group Relative Policy Optimization(GRPO),这是从 DeepSeek-V2 时代延续并打磨至今的利器。为什么是 GRPO,而不是更为主流的 PPO(Proximal Policy Optimization)?
PPO 的核心问题是:它需要一个与策略模型(Actor)规模相当的价值模型(Critic)。这个 Critic 要负责估计当前状态下的“预期未来回报”(即优势函数 Advantage)。这在长程推理任务中带来了两个灾难性问题:
- 内存和计算开销翻倍。一个 671B 的 Actor 就需要另一个 671B 的 Critic。
- 训练极其困难。Critic 需要仅凭最终的结果奖励,去准确评估生成过程中每一个中间 token 的价值。当模型在生成时进行反思和修改时,早期生成的 token 可能在后文被推翻,这使得基于部分响应的价值估计几乎不可能。这对于长思维链模型尤为致命。
GRPO 的解决方案堪称神来之笔:它直接抛弃了价值模型!
它如何估计优势?GRPO 的方法是,对于同一个问题,让旧策略模型生成一组(Group,通常为 16 或 64 个)不同的输出 。然后,使用一个基于规则的奖励函数 对这组输出进行打分。最后,每个输出的优势 被定义为该输出在组内的标准化得分:
这个公式的精妙之处在于:
- 无需价值模型:它通过组内比较来定义“好”,而不是依赖于对环境的绝对估值。一个回答的好坏,是通过与它的“兄弟姐妹”们比较得出的。
- 自适应基线: 和 在每个问题上动态计算,提供了一个自适应的、任务感知的基线。对于简单问题,所有回答得分可能都高,基线就高;对于难题,都低,基线就低。这天然防止了模型在简单题上过度自信或在难题上盲目悲观。
此外,GRPO 直接在损失函数中加入对 KL 散度(KL divergence)的惩罚项,防止策略更新过快导致训练崩溃。与 PPO 在每个 token 奖励中隐含惩罚 KL 的方式不同,GRPO 的方式更直接,也避免了 PPO 可能因累积 KL 惩罚而变相惩罚长回答的副作用——这对于旨在培养长思维链的模型来说,是决定性的优势。
在训练 DeepSeek-R1-Zero 时,团队设置了严苛的条件:(每组采样 16 个输出,深度为 1,最大长度从 32,768 扩展到 65,536),KL 系数 0.001,采样温度 1。每个训练步包含 32 个独一无二的问题,总批次大小为 512。每隔 400 步,参考模型会被更新为最新的策略模型。这套精密的 RL 引擎为智慧的涌现准备好了温床。
1.3 奖励即是命运:规则之神
强化学习的核心是奖励函数。如果奖励信号存在漏洞,模型就会找到捷径进行“奖励黑客”行为,导致目标的对齐失败。为确保奖励的纯净和可靠,DeepSeek-R1-Zero 采用了一套基于规则的奖励系统,主要由两部分组成:
- 准确性奖励 ():对于数学题,要求模型将最终答案放在
\boxed{}中,然后进行严格的字符串匹配或符号计算验证;对于代码题,使用编译器运行测试用例进行客观评判。没有任何模棱两可的余地。 - 格式奖励 ():强制模型将推理过程放在
<think>标签内,将最终答案放在<answer>...</answer>或\boxed{}中。这纯粹是为了可读性和解析性,不涉及任何内容偏见。
一个至关重要的设计决策是:他们明确排除了基于神经网络的奖励模型(Neural Reward Model),无论是结果导向还是过程导向(PRM)。 他们观察到,在大规模 RL 训练中,Neural Reward Model 极易被“奖励黑客”攻克,且重训奖励模型会引入巨大的计算开销和训练管道的复杂性。规则,只有规则,才能成为 RL 训练中唯一可靠的北极星。这虽然将训练范围限制在可被精确验证的领域(数学、代码、逻辑),但也确保了训练信号的绝对清白。
1.4 “顿悟时刻”:行为涌现的奇观
在这样纯粹的 RL 训练下,令人震撼的现象发生了。
1.4.1 AIME 分数的飞跃
DeepSeek-R1-Zero 在 AIME 2024 基准上的性能轨迹展示了惊人的成长。随着 RL 训练的进行,其 pass@1 分数从最初的 15.6% 飙升至 77.9%。当使用 self-consistency 时,cons@16 分数更是达到了惊人的 86.7%,超越了人类参赛者的平均水平。这在仅仅依靠纯 RL 且无任何 SFT 数据的条件下,是一个历史性的成就。
1.4.2 思维长度的自然增长 更为深刻的变化在于:模型的平均响应长度(即思考时间)在训练过程中自主增加。模型没有被人为教导“一步一步思考”,却自己学会了:为了解决更复杂的问题,我需要花更多时间、生成更多 token 来探索和验证。这种基于内在需求驱动的适应性计算资源分配,是高级智能的标志。
1.4.3 “Aha Moment”:反思行为的天性觉醒 报告中最具戏剧性的一幕是“顿悟时刻”(Aha Moment)。在一个数学问题的解法中,模型生成到一半时,突然写道:
“Wait, wait. Wait. That's an aha moment I can flag here.”
然后,它开始重新评估之前的步骤,识别出可能存在的错误,并转向了新的推理路径。这个行为完全没有被硬编码,是 RL 奖励机制下自然演化的产物。
更系统的分析统计了反思性词汇(如“wait”、“mistake”、“however”、“but”、“retry”、“error”、“verify”、“evaluate”、“check”)的出现频率。随着训练的进行,这些词汇的出现频率增长了 5 到 7 倍。而“wait”这个词的独特出现模式——在训练早期几乎不存在,中期偶尔出现,而在 8000 步后急剧爆发——标志着模型在特定训练阶段习得了一种特定的反思策略。
这一切都指向一个结论:RL 没有显式地教模型如何推理,它只是提供了一个环境——在这里,正确答案是唯一的生存法则。为了生存,模型必须自己进化出反思、验证、回溯等高级问题解决策略。 DeepSeek-R1-Zero 的训练过程,是“激励”而非“教授”这一哲学理念最纯粹、最有力的证明。
第二章:从野性到驯服——DeepSeek-R1 与多阶段炼金术
尽管 DeepSeek-R1-Zero 强大,但它如同未经打磨的原石,存在严重的可用性问题:可读性差、语言混合(中英文混杂)、以及在写作等非推理任务上能力不足。为了打造一个强大且实用的产品,DeepSeek-R1 继承 R1-Zero 的推理能力,并将其驯化和封装。这通过一个复杂的多阶段训练管道实现,堪称 AI 炼金术的顶峰。
2.1 第一阶段:冷启动——播下人性化的种子
DeepSeek-R1 的训练并非从零开始。第一步是收集数千条高质量的“冷启动”长 CoT 数据,对 DeepSeek-V3-Base 进行微调。这些数据的设计目标非常明确:
- 人性化的思维过程:采用第一人称视角(用“I”思考)、口语化的反思、清晰的格式。
- 语言一致性:用中文提问就用中文思考,用英文提问就用英文思考。
- 可读的最终总结:将复杂的推理过程提炼为一个清晰、格式规范的最终答案。
冷启动数据的创建本身就是一个精密的流程。他们使用 DeepSeek-R1-Zero(温度设为 1.0)为每个问题生成多个推理轨迹,筛选出格式正确且答案正确的样本,然后让 DeepSeek-V3 担任“编辑”,将这些野性的思维过程翻译、改写为更自然、更流畅的人类对话风格。对于代码任务,他们还开发了一套利用 DeepSeek-V2.5 生成候选测试用例并严格验证的方法。这些经过双重人工和模型验证的数据,为后续的 RL 训练提供了一个高质量、可控的起点。
这次冷启动 SFT 显著提升了模型在 IF-Eval(指令遵循)和 ArenaHard(人类偏好)上的表现,证明了人性化对齐的成功。但代价是,AIME 等推理基准上的性能出现了轻微下降(从 77.9 降至 59.0)。这恰恰证明了那个核心假设:纯粹、无约束的 SFT 数据,即使是高质量的,也会在一定程度上束缚模型的探索潜力。
2.2 第二阶段:推理 RL——在约束中回归野性
接下来,是重新激活 R1 推理能力的关键一步。DeepSeek-R1 Dev1 模型开始接受大规模的 RL 训练,其配置与 R1-Zero 类似,但加入了一个关键的约束:语言一致性奖励。
这个奖励直接加到总奖励中,强制模型在思维链中使用与问题一致的目标语言。尽管消融实验表明这会导致轻微的推理性能下降,但它对提升最终用户体验至关重要。
这次 RL 训练将 AIME 分数从 59.0 拉回至 74.0,并在代码(LiveCodeBench)和 STEM(GPQA Diamond)基准上取得了巨大进步。更重要的是,模型的推理能力得到了大幅增强,同时其他通用任务的提升则相对有限。这说明,这一阶段的 RL 高度聚焦于推理核心的精细化。
2.3 第三阶段:拒绝采样与 SFT——海纳百川,再铸辉煌
为了让模型既擅长推理,又能处理写作、翻译、角色扮演等多样任务,DeepSeek 团队执行了一次大规模的拒绝采样(Rejection Sampling) 和 SFT 流程。
- 数据生成:使用第二阶段 RL 训练后的一个中间检查点(Dev2)作为生成器。为每个问题采样多个响应,只保留那些答案正确的。
- 数据扩展:除了原 RL 阶段的数学、代码、STEM、逻辑数据外,还从 DeepSeek-V3 的 SFT 数据集中吸纳了大量非推理数据,例如写作、事实问答、自我认知、翻译,甚至包括程序修复和前端开发等软件工程数据。
- 总数据集:最终收集了约 60 万推理相关的训练样本和 20 万非推理样本。总计约 80 万条高质量的、融合了推理能力和通用技能的 SFT 数据。
这一阶段(Dev3)的结果是惊人的:AIME 分数进一步提升至 78.1,而 AlpacaEval 2.0 分数从 55.8 跃升至 62.1,Aider-Polyglot 分数更是从 25.6 暴涨至 44.8。模型在推理和实用性上取得了完美的平衡。
2.4 第四阶段:全场景 RL——终极对齐与升华
最后的工序,是将 Dev3 模型置于一个混合了推理数据(使用规则奖励)和通用数据(使用基于模型的奖励)的 RL 环境中,进行全面的偏好对齐。
- 奖励模型:他们专门训练了有用性奖励模型和安全性奖励模型。有用性 RM 基于 6.6 万对来自 Arena-Hard 格式提示的偏好数据训练,采用成对比较损失,并特别过滤掉长度偏差。安全性 RM 则基于 10.6 万条标注为“安全”或“不安全”的数据,以点式方式训练。
- 训练细节:此阶段的温度降低至 0.7,以防止高温度导致文本不连贯。通用数据和基于偏好的奖励信号仅在最后的 400 步中加入,以避免过度使用造成奖励黑客。
最终,集大成的 DeepSeek-R1 诞生了。它在 AlpacaEval 2.0 和 ArenaHard 上取得了质变(分别跃升至 87.6 和 92.3),同时推理基准也维持了顶尖水平。一个既聪明绝顶,又善于沟通、安全可靠的六边形战士,就此锻造完成。
第三章: R1 的智慧图谱——能力、分析与蒸馏
3.1 全面碾压:基准测试下的霸主之证
报告的数据无可辩驳地证明了 DeepSeek-R1 的统治力。在 AIME 2024 上,它以 79.8% 的 pass@1 比肩 o1-1217;在 MATH-500 上更是达到 97.3%,几乎满分;在 Codeforces 上,它击败了 96.3% 的人类参赛者;在 MMLU、GPQA Diamond 等知识密集型任务上同样位于第一梯队。它在人类偏好平台 Chatbot Arena 上与全球最强模型并列第一的盛况也同样令人瞩目。
尤为重要的是,DeepSeek-R1 展现了强大的泛化能力。在 2025 年最新发布的 AIME 2025 上,它的分数(11.3/15,75%)与 o1(12.0/15)相差无几,其 AMC 12 成绩结合后,达到了美国数学奥林匹克(USAMO)的入选标准。这雄辩地证明,模型的推理能力并非来自对特定试题的背诵。
3.2 深度剖析:推理能力的多维度测量
DeepSeek-R1 的智慧并非一团混沌。它展现出鲜明的特征:
- 自适应计算资源分配(测试时计算缩放):随着问题难度的增加,DeepSeek-R1 自动投入更多的“思考 token”来解决问题,花费 18,000+ token 解决最难的问题,而只花 <7,000 token 解决简单问题。这与非推理模型 GPT-4o 的恒定“浅层思考”模式形成天壤之别,后者通过多数投票虽能扩大总计算量,却因缺乏自我反思而无法提升单次求解的成功率。
- 能力优势领域:R1 在数论、代数上极强,但在几何、组合数学上仍有较大提升空间。
- 教育知识的结构性提升:从 V3 到 R1,在 MMLU-Pro 上提升最大的领域是 STEM(数学、物理等)。尤其在 MATH 和物理等类别,R1 相比 V3 实现了巨大的性能飞跃。甚至在非 STEM 领域,如社会科学和人文学科中,由于对问题理解的加深,长思维链也带来了意想不到的提升。
3.3 智慧的传承:蒸馏技术——用老师的智慧哺育学子
为了推动技术民主化,DeepSeek 团队将 DeepSeek-R1 的智慧“蒸馏”到了更小的模型中。他们使用第三阶段收集的 80 万条 SFT 数据,对 Qwen 和 LLaMA 系列的开源模型进行了微调,未进行额外的 RL 训练。
结果极具说服力:一个 1.5B 的蒸馏模型就在数学基准上超越了 GPT-4o 和 Claude 3.5 Sonnet。在 7B 到 70B 的规模上,蒸馏性能更是随模型规模稳定提升。关键对比实验揭示了更深层的结论:对一个 32B 模型进行大规模的纯 RL 训练(如 Qwen2.5-32B-Zero),其性能远不如从更强 R1 模型蒸馏得到的模型(DeepSeek-R1-Distill-Qwen-32B)。这清晰地表明,在较小规模上,继承强大教师模型的思维模式,比让一个小模型从零开始通过 RL 自己探索,要经济且有效得多。
第四章:教训与沉思——智慧之路上的失败与箴言
DeepSeek 团队极为坦诚地分享了他们的失败尝试,这些经验对任何致力于 AI 推理的研究者都价值连城。
- 过程奖励模型(PRM)之殇:尽管 PRM 理论上能在推理的每一步提供反馈,但他们发现,在通用推理任务中,明确定义一个“细粒度步骤”极其困难;判断中间步骤的对错又非常棘手;而一旦使用一个基于模型的 PRM,又立即面临“奖励黑客”的风险,且重训成本高昂。他们最终得出结论,在目前的大规模 RL 训练中,PRM 带来的收益与它引入的复杂性和开销不成正比。
- 蒙特卡洛树搜索(MCTS)的困境:受 AlphaGo 启发,他们尝试了 MCTS。但单词生成的搜索空间比围棋盘面大无数倍,指数级的爆炸令搜索举步维艰。而为每一步引导搜索而训练的价值模型(Value Model)同样遇到难以准确评估的困难。虽然 MCTS 能在推理时有效,但想通过它“自我搜索”来迭代提升模型性能,目前仍困难重重。
最后,报告提出的关键发现(Key Findings)——基座模型的规模至关重要(7B/16B 模型几乎无法从纯 RL 中受益),以及可靠验证器的神圣不可侵犯性——为我们指明了未来的方向。
尾声:纯粹 RL 的黎明与未竟之路
当我们站在 2026 年的开端,回望这篇发表于一年前的报告,DeepSeek-R1 的意义早已超越其分数本身。它是一场成功的科学实验,它验证了一条通往高级推理能力的、不同于传统模仿学习的全新路径。它证明了,在合适的奖励机制下,智慧行为可以被“激励”自发涌现,而非必须通过人类经验“灌输”。
报告中提到的“顿悟时刻”,不仅是模型的一个进步,更是对我们自身认知偏见的一次提醒——我们可能一直低估了模型自我进化的潜力,并过度依赖了人类的、也许并非最优的思维模式。
当然,先驱的道路从不平坦。R1 仍有局限:它在工具使用和结构化输出上尚不如人,有时会“过度思考”(overthinking),对提示词极为敏感,且多语言混合的问题仍未根治。但更重要的是,它指明了一个未来:任何能被一个可靠验证器(Verifier)有效评估的任务,无论对人类来说多么复杂,都将被这类纯粹的 RL 方法所征服。
DeepSeek-R1 的精神,不在于模型的参数规模,而在于它所践行的方法论:解放思想,实事求是。 它是一次勇敢的回归,回归到智能最本源的定义——在约束中,通过试错与反馈,自主发现通往真理的最优路径。这股“极客之道”的火焰,已经点燃,它将在通往通用人工智能的征途上,长久地、明亮地燃烧。