架构师的白板：从C2C到AGI，深度复盘DeepSeek Scaling Law背后的极致务实

序章 · 深夜的架构图

2012 年 6 月的一个深夜，杭州。

阿里巴巴 B2B 业务刚刚完成从港交所的私有化退市。我坐在办公室，面前铺着一张巨大的系统架构图。那时候，我们的平台每天要处理超过 10 亿次服务调用，支撑着全球两千多万商户的生意。一个挥之不去的问题悬在头顶：当业务规模扩大十倍，这套架构还能撑得住吗？

这个问题看似简单，回答起来却让人后背发凉。不是因为技术不够好，而是因为——我们其实没有一个可靠的方法，去预测“扩大规模”这件事本身的成本和收益。 增加服务器能带来多少性能提升？数据量翻倍，模型复杂度应该怎么调？这些决策，在当时更多依赖的是经验和直觉，而不是精确的科学。

十多年后的今天，我坐在广州的办公室里，面前的“架构图”从电商系统变成了一篇论文——DeepSeek 团队发布的《DeepSeek LLM: Scaling Open-Source Language Models with Longtermism》。读完之后，我感受到了一种久违的共鸣。

这不是一篇关于“我们做了多大的模型”的炫技文章，而是一篇关于 “我们如何找到一种方法，可靠地预测扩大规模的效果” 的工程方法论论文。它试图回答的，恰恰是 2012 年那个深夜困扰我的问题——只不过，这次不是在电商架构的尺度上，而是在通往通用人工智能（AGI）的尺度上。

让我特别触动的是他们提出的核心理念：Longtermism，长期主义。 这不是一个空洞的口号。在上下文里，它指的是：与其一次烧钱堆出个大模型然后炫耀跑分，不如花时间搞清楚“规模化”(scaling）这件事本身的内在规律。一旦掌握了规律，你就能用小的、便宜的实验，去预测大的、贵的模型的性能。

这就像航海。早期探险家靠的是勇气和运气，而现代航海靠的是精确的海图和天气预报。DeepSeek 团队想做的，就是绘制大模型的“航海图”。

但这个任务比想象中难得多。为什么？因为之前画出来的“海图”居然是相互矛盾的。

OpenAI 在 2020 年发表了一篇著名的 Scaling Law 论文。 他们研究了模型参数量 N、训练数据量 D、计算预算 C 之间的关系，得出的结论是：如果计算预算增加了，你应该把大部分新增预算投入到扩大模型参数量 N上，数据量 D 的增加相对少一些。具体来说，他们拟合出的关系大约是 N_opt ∝ C^0.73, D_opt ∝ C^0.27。也就是说，模型规模的指数是 0.73，数据的指数只有 0.27。

但到了 2022 年，DeepMind 的 Chinchilla 论文却给出了相反的结论。他们说自己做了更严谨的实验，发现应该是：数据和模型同等重要，几乎要对半开。 他们的拟合结果是 N_opt ∝ C^0.49, D_opt ∝ C^0.51。也就是各占一半。

一个是 73:27，一个是 50:50。这差距大到无法忽略。作为技术决策者，你该信谁？如果你按照 OpenAI 的建议，把几千万美元砸进扩大模型，结果发现瓶颈其实是数据不够，那这几千万就打了水漂。反过来也一样。

这就是为什么 DeepSeek 团队决定自己从头研究 Scaling Law。用他们的话说，之前的结论不同，“casts a dark cloud over scaling LLMs”——给大模型的规模化蒙上了一层阴云。他们要亲手拨开这层云。

而这，就是我写这篇万字拆解的初心。

我会用架构师和物理学徒的双重身份，把这篇论文从头到尾拆给你看。不堆公式，不搬术语，只用物理直觉和生活类比。保证读到这里的本科生也能理解，这篇看似高深的 AI 论文，本质上在讲一个什么故事。

好，让我们开始。

第一乐章 · 调校炼丹炉

古人炼丹，讲究“炉火纯青”。炉子没搭好，火候没摸准，炼出来的就是废渣。大模型训练也一样。在讨论深奥的 Scaling Law 之前，DeepSeek 团队花了大量篇幅讲他们的基础工作——数据怎么洗，模型怎么搭，分词器怎么设计。

这些内容在论文里容易被跳过，但作为当年搭过电商平台基础架构的人，我深知：决定上层建筑能建多高的，永远是地基。

食材备制：数据清洗的艺术

大模型吃的是数据。数据质量直接决定模型质量。这跟做饭一个道理——米其林大厨用的食材，和路边摊用的食材，做出来的菜能一样吗？

DeepSeek 团队的数据处理分三步走：去重、过滤、重混合。

去重这件事，比听起来要复杂得多。想象你在整理一个巨大的图书馆。有些书是孤本，有些书有几十个副本散落在不同书架上。如果你不去重，模型就会把同一本书读几十遍——这不仅是浪费，更可怕的是，模型会误以为这本书里的观点是“主流观点”，因为它的出现频率被人为放大了。

但难点在于：你怎么定义“重复”？完全一样的两个文档当然好认。但如果有人把一篇文章改了 10%的字，算不算重复？如果一篇文章被翻译成了中文、日文、法文，算不算重复？

DeepSeek 团队做了个很细致的实验。他们发现，如果只在单个数据快照（dump）内部去重，去重率只有 22%到 46%。但如果横向跨 91 个快照去重，去重率能达到89.8%——这意味着近九成的重复都被干掉了。这个数字让我想起当年做电商搜索时，我们也是通过跨多个索引分片去重，才真正解决了商品重复展示的问题。工程上，很多难题的答案都在“横向打通”这四个字里。

过滤这一步更考验功力。怎么判断一个文档的质量？你不能靠人工一篇篇看，量太大了。必须设计自动化的质量评估标准。论文里提到他们综合了“语言学分析和语义评估”——说白了，就是从语言通不通顺、有没有实质性内容这两个维度来打分。

这让我想起一个比喻。好的数据像营养成分丰富的食物，坏的数据像垃圾食品——吃了会饱，但不长肌肉只长肥肉。用垃圾数据训练的模型，参数是上去了，但推理能力稀烂。

重混合是最后一步。不同的知识领域在互联网上的占比是不均衡的。比如娱乐花边新闻可能占了 90%，而严肃的数学推理只占 0.1%。如果原样喂给模型，它就只会写八卦，不会做数学。所以要刻意调整比例，增加那些“小众但有营养”的数据——这就像配比猫粮，蛋白质、脂肪、碳水要有合理的比例。

地基设计：为什么是 95 层而不是加宽？

模型架构这部分，DeepSeek 基本上是跟随 LLaMA 的设计。但有一处“微调”特别值得玩味。

他们的 67B 模型有95 层，而对标的 LLaMA 70B 只有 80 层。在总参数量差不多的情况下，DeepSeek 选择了“更深”而不是“更宽”。

这有什么讲究？

想象你要建一栋办公楼，总面积固定。你有两种选择：一种是建得矮一些，但每层面积很大（更宽)；另一种是建得高一些，每层面积缩小（更深)。哪种更好？

对于办公楼，高层能装下更多有独立办公室的部门，功能分区更清晰。对于神经网络，更深意味着更多的“抽象层级”——每一层可以对上一层的特征做进一步的提炼和组合。

这就像理解一个笑话。大脑的神经处理可能也有层级：第一层识别出这是语言；第二层理解字面意思；第三层捕捉到双关的可能；第四层结合语境；第五层才觉得好笑。层数越多，能处理的抽象程度越高。

但为什么不无限加深呢？因为有两个致命问题。

第一是梯度消失/爆炸。层数太多，信号从最后一层传回第一层时会变得越来越弱（或越来越强)，导致前面的层根本学不到东西。好在现代架构（RMSNorm, SwiGLU, Rotary Embedding 等）已经较好地解决了这个问题。

第二是推理效率。层数加深意味着推理时必须串行计算——第 51 层的结果出来之前，第 52 层没法开工。如果层太深，即使单层计算很快，总延迟也会让人抓狂。而“加宽”(增加 d_model 维度）则可以通过并行来加速。

DeepSeek 选择了 95 层，说明他们在“高抽象能力”和“推理延迟”之间找到了一个平衡点。更深，但不过分深。这个决策没有魔法，只有 tradeoff——而识别和导航 tradeoff，正是架构师的核心能力。

一个小而美的细节：分词器

分词器（Tokenizer）负责把原始文本切成模型能处理的最小单元。英文里，“apple”可能是一个 token(词单元)；中文里，“苹果”通常是一个 token。

DeepSeek 用的是 BBPE(字节级 BPE）算法，词汇量设为 102400。一个有趣的细节是：他们把数字拆分成单个数字——比如“2024”不是整体，而是“2”、“0”、“2”、“4”四个 token。

为什么这样做？我一开始也不理解。后来看到解释才明白：数字的组合是无限的，但单个数字只有 10 个。 如果把每个数字组合都当作独立 token，词汇表会爆炸。更重要的是，拆开后，模型可以真正“计算”——它能看到“2”和“4”之间的关系，而不是把一个叫“2024”的黑盒子直接吐出来。这为数学推理能力打下了基础。

这让我想起《道德经》里的一句话：“图难于其易，为大于其细。”天下难事，必作于易；天下大事，必作于细。大模型的成功，很多时候不在宏大的叙事里，而在这些深夜抠细节的决定里。

第二乐章 · 绘制寻宝图

第一乐章讲的是“搭炉子”。现在炉子搭好了，最核心的部分来了。

假设你是一个探险队队长，要在茫茫群山中寻找宝藏。你有有限的补给和人力（计算预算 C)。你需要决定：是派更多人去勘探（Model 规模)，还是收集更详细的当地数据（Data 规模)？怎么分配效率最高？

这就是 Scaling Law 试图回答的问题。而 DeepSeek 的贡献，在我看来，是让问题本身变得更精确了。

3.1 超参数的宽阔山谷

机器学习里，有大量“超参数”需要设置——学习率啦，批次大小（batch size）啦，等等。这些参数不直接决定模型能力，但严重影响训练效果。

问题是：当你的模型规模从 1 亿参数扩大到 100 亿参数，这些参数的最优值会变吗？

之前的经典研究（比如 OpenAI 的 Kaplan 等人）发现，最优批次大小似乎只跟最终性能目标有关，跟模型大小或计算预算关系不大。如果是这样，你就不用反复试了——直接用之前的最优值就行。

但 DeepSeek 发现不是这样。他们做了大规模网格搜索后得出结论：最优批次大小 B 会随着计算预算 C 的增加而增加，最优学习率η会随着 C 的增加而减小。 并拟合出了明确的公式。

这背后有什么物理直觉？

学习率决定了模型每次调整参数的幅度。学习率大，步子迈得大，学得快但容易错过最优解。学习率小，步子精细，但可能走太慢。计算预算大的时候，你能跑的步数多，所以可以把学习率调小一些，走得更精细。 而批次大小越大，每个批次的数据越多，梯度估计越准，训练越稳，但单批计算量也大。预算大时，你有更多计算余量，可以承受更大 batch 带来的好处。

关键在于他们发现的另一个现象：最优参数空间非常宽阔。

用他们的话说，只要你的参数落在那个区域里，“generalization error remains stable across a wide range of choices”——泛化误差在很多选择下都很稳定。在另一处，他们把那些泛化误差比最低点高出不超过 0.25%的模型都标记为“near-optimal”(近似最优)。

0.25%。这意味着你稍微偏离最优设置，性能损失微乎其微。

他们把最优区域画出来，不是一条线，而是一个宽阔的条带（broad band)。

这个发现对工程落地的意义巨大。这意味着你在训练大模型之前，其实不需要用超级昂贵的实验去精确寻找那个最优参数点。你只需要小心地通过小模型预测出一个大致范围，然后在大模型训练时，你大概率就落在这个“宽阔山谷”里。你不会踩在悬崖边缘，你走在一个平坦的高原上。

作为工程师，这让我大松一口气。它把“玄学调参”变成了“大约摸就行”。

3.2 计算的真实流动：为什么 C≠6ND？

这个标题写下来，我就知道是本章最硬核的部分。但也是最精彩的部分。我会努力让没有数学背景的读者也能感受到其中逻辑之美。

之前所有 scaling law 研究，在关联“计算量 C”和“模型大小 N”、“数据量 D”时，都使用一个近似公式：

C ≈ 6ND

这个公式是怎么来的？一个训练步（token）的前向传播需要约 2N 次浮点运算（一次乘法，一次加法)，反向传播需要约 4N 次，加起来就是 6N。所以处理 D 个 token 的总计算量就是 6ND。

近似，但不是精确。

问题出在两个地方。第一，这个 N 到底代表什么？Kaplan 用的是“非嵌入层参数 N1”，就是大部分计算发生的那些层。Hoffmann 用的是“完整参数 N2”，包括嵌入层。这两者在小模型上能差出一倍以上。

第二，也是最关键的，两者都忽略了注意力（attention）机制的计算量。在大模型、长序列的情况下，注意力操作非常昂贵。

DeepSeek 团队引入了一个新度量：

M = 非嵌入层 FLOPs/token(令牌浮点运算次数)

也就是每个 token 经过模型时，实际发生的浮点运算次数，包含注意力操作，但不包含词汇映射那部分（因为词汇映射对“智能”贡献小)。

这有什么了不起的？

旧公式 C=6ND 是一个近似值，实际上当你说“我要给这个模型 1e20 的算力”时，如果你用旧公式，实际上的算力可能有系统误差。在比较不同大小、不同配置的模型时，你的比较基线就是歪的。

而 M 让比较基线变平了。 在极小的模型上，旧公式 6N1/M 只有 0.43，意味着它严重低估了实际计算量。而在最大的模型上，N2/M 达到 0.94，就比较准了。你要是从小模型上去推测大模型的行为，带着系统误差的公式会给你指错路。

这就好比：你要测量一段距离，但你的尺子是橡皮做的——短距离时绷得紧，长距离时松，读数完全是歪的。DeepSeek 做的，就是换了一把准确的钢尺。

他们用这把“钢尺”重新做了 IsoFLOP 实验。

IsoFLOP 的意思是“等计算量”。给定一个固定的计算预算，比如 1e20 FLOPs，尝试不同的模型大小和数据量配比，看看哪个配比能达到最低的测试损失。比如你可以做一个 10 亿参数的模型，配 1000 亿 token 的数据；也可以做一个 30 亿参数的模型，配 333 亿 token 的数据。两者计算量一样，但效果不同。

他们做出了结果。拟合出：

M_opt ∝ C^0.5243 D_opt ∝ C^0.4757

四舍五入，50 比 50。

这个结果与 DeepMind 的 Chinchilla(49 vs 51）很接近，跟 OpenAI 的（73 vs 27）差别很大。

但等等，这还不算完。他们接下来做了一个让我眼前一亮的分析。

3.3 数据的材质与模型的形态

DeepSeek 在自己开发过程中，有早期版本的数据集，也有后期优化过的当前版本数据集。此外，他们还把 OpenWebText2(一个之前其他论文用过的公开数据集）也拿来跑了一遍。

三个数据集，得出的最优配比却不一样。

对于“早期数据”，a=0.450,b=0.550——数据更重要，应该把 55%的增量算力投入数据扩展。

对于“当前数据”(更高质量)，a=0.524,b=0.476——模型和数据几乎一半一半，但模型略占优势。

对于 OpenWebText2(经过精心处理的小数据集)，a=0.578,b=0.422——模型占据绝对主导，指数飙到 0.578。

一个非常清晰的趋势出现了：数据质量越高，最优化分配策略越偏向“扩大模型”而不是“扩大数据”。

这是什么道理？我坐在这里想这个问题，推演出了这样一个框架。

假设数据是食物，模型是吃食物长大的生物。给模型一堆低质量的垃圾食品，不管堆多少，它也长不出强健的推理能力。因为逻辑和推理是需要结构化和清晰信号才能学到的模式。低质量数据重复堆量，只是让它在同样的噪音里打转，边际收益递减得非常快。

但高质量数据，比如一本教科书，言之有物，逻辑严密。一个智商高的学生（大模型）反复读同一本教科书，是不是就能自己推导出很多全新的结论？反过来，一个智商低的学生（小模型)，读再多遍教科书，内部消化吸收能力有限，也还是只能学到皮毛。

所以，数据和模型之间不是简单的堆料关系，它们中间有一个非常关键的“吸收”过程。 而这个吸收的速率，更多取决于模型的“理解能力”——从根本上来说，就取决于模型的规模。

这就解释了：数据质量越好，它就越“耐用”，一个强大的模型可以反复从中萃取营养。所以当你握有高质量数据时，最明智的策略是把增量算力投向模型，让它变得更强，去榨干这批优质数据的最后一点价值。

这个发现意味着：scaling law 不是一个普适常数，它依赖于你的数据。你看到别人论文里画的最优点，不一定是你家数据的最优点。归根结底，你得自己动手测试。

同时，它也提供了一个间接判断数据质量的工具——a 系数越高，暗示你的数据质量越好。

第三乐章 · 赋予模型灵魂

有了一个强大的预训练（Pre-training）模型，接下来怎么办？如果你直接用它进行对话，它会回答你一句话的下文是什么，而不是一个有用的、忠诚的、安全的 AI 助手。

把这个 raw 模型变成一个真正好用的对话伙伴，这个过程叫“对齐”(Alignment)。这个部分是整个流程中，最像“魔法”，也最像“艺术”的阶段。DeepSeek 的路线是：SFT(有监督微调，Supervised Fine-Tuning) + DPO(直接偏好优化，Direct Preference Optimization)。

SFT 与 DPO 的默契

指令数据非常关键。DeepSeek 准备了约 150 万条指令数据，涵盖通用语言、数学和代码。SFT 就是用这些“问题-标准答案”对，给模型看，让它模仿。

但这里有一个矛盾。7B 小模型如果大量喂数学和代码数据，它的 conversation 能力会退化，最明显就是喜欢重复说话。因为数学和代码的推理链，天然就有很多重复模式。小模型概括能力弱，就学到了“不断重复”这个壳子。

DeepSeek 的办法聪明极了：两阶段 SFT。

第一阶段，全量数据，猛火快炒，主要是让它吸收数学和代码的逻辑能力。这时模型重复率 2.0%。

第二阶段，只喂高质量对话数据，不喂数学和代码。这时，它不是因为学习了“不要重复”来降低重复率，而是学习了更流畅、更多样的对话模式。当它学会能用多种方式表达同一意思后，自然就不会在一个死循环里打转了。最后重复率降到 1.4%，数学和代码能力还在。

67B 模型只做第一阶段就够了，因为大模型本身有更强的泛化能力，不容易掉进重复陷阱。

在 SFT 之后，DeepSeek 还使用了 DPO。DPO 是一种新兴的偏好对齐方法。它不让模型去死记硬背标准答案，而是给它一对回答——一个好，一个坏——让它去学习“人类更偏好哪种回答”。

结果是，DPO 几乎不影响各项跑分，但在开放式对话、安全性和角色扮演上，提升明显。比如 MT-Bench 评分，从 8.35 跳到了 8.76。

数据配比的化学

他们的指令数据配比：31.2%通用语言，46.6%数学，22.2%代码。 数学数据占了快一半。为什么？

因为数学数据兼具了“严密逻辑”和“最终答案确定性”两者之长。代码也有类似特点，但数学更是对纯粹推理的训练。可以说，数学是这颗药丸里的“健脑成分”。

不过他们也观察到了一个微妙的现象：加太多数学 SFT 数据，会让小模型更容易重复。显然，数学和对话之间，有一条需要小心平衡的界线。

一个体现极致务实的选择

在整个对齐过程中，最让我肃然起敬的一个细节是：他们选择故意不加多项选择题（MC Data）数据。

在 SFT 阶段加入大量选择题训练，可以大幅拉升 MMLU、C-Eval 这类多项选择评测集的分数。智谱、百度等很多模型的 SFT 策略里都这么干。

DeepSeek 也试了。加了 2000 万道中文选择题后，C-Eval 涨了 24 分，涨幅惊人。但他们去测其他非选择题、生成式的评测，发现分数没变化。

顿时，这支团队明白了：加选择题，只是在教模型“考试技巧”，不是在教它“真正的知识和推理”。

他们于是决定，为了报告的纯洁性，放弃这唾手可得的分数提升。

读到这一段，我心里涌起一阵敬意。这是真正的工程师精神：求真，务实，不装，不作弊。 分数是给别人看的，智能是留给自己去突破下一个难题的。

第四乐章 · 不仅是跑分

评估环节，是所有 AI 论文最“卷”的部分。排行榜，柱子高一点，低一点，媒体追逐，股价波动。

但 DeepSeek 的评估章节，信息密度极高，且蕴含着远超跑分的技术洞见。

他们分了四个层次来评估：标准公开基准（Base 和 Chat)、开放域评测（AlignBench, MT-Bench)、留出集防污染评测（LeetCode, Hungarian Exam）和安全评测。

我挑里面几个最有意思的来说。

对比的艺术

他们最核心的对比对象是 LLaMA 2。结论是：在同样使用 2T token 双语数据训练的情况下，DeepSeek 67B 在代码、数学和推理上，已经显著超越了 LLaMA 2 70B。

这意味着什么？意味着“数据构成”和“scaling law 指导下的训练方法”的价值，已经盖过了“参数量”的差异。

在代码和数学上，DeepSeek 67B Base 甚至能和专门训过的 CodeLlama 掰手腕，而他们的普通能力要强得多。而在数学上，DeepSeek 67B Chat 配合工具使用，成绩甚至超过了当时的专用 SOTA 模型 ToRA。

这说明了一个深刻的道理：一个扎实的、全面的通用底座，可以在专项上媲美甚至超越专项模型。博和专，不是对立的，博到深处，本身就是一种更高级的专。

系统提示的涌现

DeepSeek 做了个很有意思的测试：给模型加一个系统提示词，类似于“你是一个由 DeepSeek 创造的有用、诚实的人工智能助手……”。

结果，7B 模型加上提示词后，MT-Bench 分数不升反降，从 7.15 微跌到 7.11。而 67B 模型加上提示词后，分数从 8.35 大涨到 8.58。

他们的解释是：小模型理解不了系统提示词的深层意图，反而被这种“训练时不存在的格式”搞糊涂了。而大模型真正理解了系统提示词是在给它下达行为准则。

这种现象在 AI 界有个专门的名称：涌现（Emergence)。当模型跨过某个规模阈值，会突然获得一些小模型完全没有的能力。指令遵循就是一种涌现能力。 它不是设计出来的，不是训练目标明确包含的，而是规模到了，自然产生的。

这让人对“长期主义”有了更深的信任。很多东西，不必在每一个中间步骤去着急优化。

对齐税的思考

一个几乎所有团队都观察到的现象是：有时候 SFT 和 RLHF 会带来一个矛盾效应——安全性提升了，对话能力变好了，但标准学术 benchmark 的分数反而下降了。 这种现象叫“对齐税”(Alignment Tax)。

DeepSeek 也看到了。HellaSwag(一个完形填空式常识测试）在 SFT 后分数下降。他们的分析是：“这些任务通常涉及完形填空或句子补全……纯语言模型更擅长处理此类任务。”

翻译成大白话：鱼与熊掌不可得兼。 当你让模型学会像人一样对话时，它在“预测下文”这种模式下的表现自然会退化。这不是失败，只是一个需要接受的 tradeoff。

留出集的残酷考验

很多模型，小模型，都能在 GSM8K、HumanEval 上考高分，刷榜刷得很开心。

但在全新的、模型绝对没见过的留出测试集上呢？

他们用 LeetCode 竞赛题（2023 下半年的新题)、匈牙利数学、以及谷歌的一个指令遵循评估集来测试。

结果触目惊心。ChatGLM3 在 MBPP 上拿了 52.4 分，但在 LeetCode 上直接掉到 2.4；在 GSM8K 上拿了 72.3 分，在匈牙利上只有 32 分。

而 DeepSeek 67B，三个测试都稳稳站住，不仅远超小模型，也大比分甩开了一批更大或同级的模型。

这说明：小模型的刷榜高分，存在着严重的“过拟合到评测集”的水分。真正面临没见过的新题时，它的缺陷暴露无遗。而大模型的“智能”，是更加本质的。 这是一个残酷的真相，但也是所有认真在做 AGI 的团队必须直面的。

终章 · 从 C2C 到 AGI

万字拆解到这里，已近尾声。回到我们自己。

2010 年，我在阿里主导 B2B 技术架构。当时每天 10 亿次服务调用，支撑着全中国乃至全球的中小企业做生意。我们从单体架构，历经痛苦的拆分，演化为 1000+微服务的分布式系统。支撑了 2007 年史上最狂热 IPO，也支撑了 2012 年那个从港交所私有化的壮士断腕。

那个过程教会了我一件事：系统规模每扩大一个数量级，原先的架构假设就会崩塌。能让你在未知水域安然航行的，不是你有多聪明，而是你是否真正摸清了风浪的规律。

我读到 DeepSeek 这篇论文时，看到了同一种信仰。

他们没有急于做一个“震惊世界”的最大模型，而是扎扎实实回头，重新检查最基础的问题：Scaling Law。他们不怕花费算力去重新跑那些基础曲线，重新审视 batch size 和 learning rate，重新定义计算量 M。因为他们相信，只有在这些最基础的“地基”上建立起的万丈高楼，才不会在风暴中轻易倒塌。

DeepSeek LLM 不仅仅是一组模型的发布。它是一份宣言：真正的长期主义，不是等待未来，而是基于对规律的深刻理解，去准确预测并有效抵达未来。

我在简历开头写道，我现在致力于“Phaenarete 项目”——人类与 AI 协作，向希尔伯特第八问题（黎曼猜想）进军。我们用一种叫做 PrimeClaw 的多智能体框架，结合 Lean 4 语言，让 AI 去辅助探索那些深藏于素数分布背后的数学真理。

我的工作不是去“算”出黎曼猜想的对错，而是构建一套方法论，一种像 Scaling Law 一样的东西——揭示“人类直觉”和“AI 穷举”之间最优的合作配比到底是什么，如何随着问题难度的扩展而扩展。

我们在纯粹的数学领域里探索，他们在工程领域里探索，但底色是一模一样的：面对巨大的未知，不靠拍脑袋，不靠碰运气，靠的是绘制精确的地图，然后再启航。

深夜，再次审读这篇论文时，我想起《庄子·养生主》里的庖丁解牛：“依乎天理，批大郤，导大窾，因其固然。”我心目中的架构，就应该是“因其固然”的架构。DeepSeek 团队所做的，正是深入牛体的肌理，找到那些天然存在的缝隙（Scaling Law)，然后顺着它们精准地用刀。

在浮躁的 AI 圈，这种沉静的力量，最是动人。