AI & Technology#DeepSeek#Scaling Law#AGI#架构

架构师的白板:从C2C到AGI,深度复盘DeepSeek Scaling Law背后的极致务实

序章 · 深夜的架构图

2012 年 6 月的一个深夜,杭州。

阿里巴巴 B2B 业务刚刚完成从港交所的私有化退市。我坐在办公室,面前铺着一张巨大的系统架构图。那时候,我们的平台每天要处理超过 10 亿次服务调用,支撑着全球两千多万商户的生意。一个挥之不去的问题悬在头顶:当业务规模扩大十倍,这套架构还能撑得住吗?

这个问题看似简单,回答起来却让人后背发凉。不是因为技术不够好,而是因为——我们其实没有一个可靠的方法,去预测“扩大规模”这件事本身的成本和收益。 增加服务器能带来多少性能提升?数据量翻倍,模型复杂度应该怎么调?这些决策,在当时更多依赖的是经验和直觉,而不是精确的科学。

十多年后的今天,我坐在广州的办公室里,面前的“架构图”从电商系统变成了一篇论文——DeepSeek 团队发布的《DeepSeek LLM: Scaling Open-Source Language Models with Longtermism》。读完之后,我感受到了一种久违的共鸣。

这不是一篇关于“我们做了多大的模型”的炫技文章,而是一篇关于 “我们如何找到一种方法,可靠地预测扩大规模的效果” 的工程方法论论文。它试图回答的,恰恰是 2012 年那个深夜困扰我的问题——只不过,这次不是在电商架构的尺度上,而是在通往通用人工智能(AGI)的尺度上。

让我特别触动的是他们提出的核心理念:Longtermism,长期主义。 这不是一个空洞的口号。在上下文里,它指的是:与其一次烧钱堆出个大模型然后炫耀跑分,不如花时间搞清楚“规模化”(scaling)这件事本身的内在规律。一旦掌握了规律,你就能用小的、便宜的实验,去预测大的、贵的模型的性能。

这就像航海。早期探险家靠的是勇气和运气,而现代航海靠的是精确的海图和天气预报。DeepSeek 团队想做的,就是绘制大模型的“航海图”。

但这个任务比想象中难得多。为什么?因为之前画出来的“海图”居然是相互矛盾的。

OpenAI 在 2020 年发表了一篇著名的 Scaling Law 论文。 他们研究了模型参数量 N、训练数据量 D、计算预算 C 之间的关系,得出的结论是:如果计算预算增加了,你应该把大部分新增预算投入到扩大模型参数量 N上,数据量 D 的增加相对少一些。具体来说,他们拟合出的关系大约是 N_opt ∝ C^0.73, D_opt ∝ C^0.27。也就是说,模型规模的指数是 0.73,数据的指数只有 0.27。

但到了 2022 年,DeepMind 的 Chinchilla 论文却给出了相反的结论。他们说自己做了更严谨的实验,发现应该是:数据和模型同等重要,几乎要对半开。 他们的拟合结果是 N_opt ∝ C^0.49, D_opt ∝ C^0.51。也就是各占一半。

一个是 73:27,一个是 50:50。这差距大到无法忽略。作为技术决策者,你该信谁?如果你按照 OpenAI 的建议,把几千万美元砸进扩大模型,结果发现瓶颈其实是数据不够,那这几千万就打了水漂。反过来也一样。

这就是为什么 DeepSeek 团队决定自己从头研究 Scaling Law。用他们的话说,之前的结论不同,“casts a dark cloud over scaling LLMs”——给大模型的规模化蒙上了一层阴云。他们要亲手拨开这层云。

而这,就是我写这篇万字拆解的初心。

我会用架构师和物理学徒的双重身份,把这篇论文从头到尾拆给你看。不堆公式,不搬术语,只用物理直觉和生活类比。保证读到这里的本科生也能理解,这篇看似高深的 AI 论文,本质上在讲一个什么故事。

好,让我们开始。


第一乐章 · 调校炼丹炉

古人炼丹,讲究“炉火纯青”。炉子没搭好,火候没摸准,炼出来的就是废渣。大模型训练也一样。在讨论深奥的 Scaling Law 之前,DeepSeek 团队花了大量篇幅讲他们的基础工作——数据怎么洗,模型怎么搭,分词器怎么设计。

这些内容在论文里容易被跳过,但作为当年搭过电商平台基础架构的人,我深知:决定上层建筑能建多高的,永远是地基。

食材备制:数据清洗的艺术

大模型吃的是数据。数据质量直接决定模型质量。这跟做饭一个道理——米其林大厨用的食材,和路边摊用的食材,做出来的菜能一样吗?

DeepSeek 团队的数据处理分三步走:去重、过滤、重混合。

去重这件事,比听起来要复杂得多。想象你在整理一个巨大的图书馆。有些书是孤本,有些书有几十个副本散落在不同书架上。如果你不去重,模型就会把同一本书读几十遍——这不仅是浪费,更可怕的是,模型会误以为这本书里的观点是“主流观点”,因为它的出现频率被人为放大了。

但难点在于:你怎么定义“重复”?完全一样的两个文档当然好认。但如果有人把一篇文章改了 10%的字,算不算重复?如果一篇文章被翻译成了中文、日文、法文,算不算重复?

DeepSeek 团队做了个很细致的实验。他们发现,如果只在单个数据快照(dump)内部去重,去重率只有 22%到 46%。但如果横向跨 91 个快照去重,去重率能达到89.8%——这意味着近九成的重复都被干掉了。这个数字让我想起当年做电商搜索时,我们也是通过跨多个索引分片去重,才真正解决了商品重复展示的问题。工程上,很多难题的答案都在“横向打通”这四个字里。

过滤这一步更考验功力。怎么判断一个文档的质量?你不能靠人工一篇篇看,量太大了。必须设计自动化的质量评估标准。论文里提到他们综合了“语言学分析和语义评估”——说白了,就是从语言通不通顺、有没有实质性内容这两个维度来打分。

这让我想起一个比喻。好的数据像营养成分丰富的食物,坏的数据像垃圾食品——吃了会饱,但不长肌肉只长肥肉。用垃圾数据训练的模型,参数是上去了,但推理能力稀烂。

重混合是最后一步。不同的知识领域在互联网上的占比是不均衡的。比如娱乐花边新闻可能占了 90%,而严肃的数学推理只占 0.1%。如果原样喂给模型,它就只会写八卦,不会做数学。所以要刻意调整比例,增加那些“小众但有营养”的数据——这就像配比猫粮,蛋白质、脂肪、碳水要有合理的比例。

地基设计:为什么是 95 层而不是加宽?

模型架构这部分,DeepSeek 基本上是跟随 LLaMA 的设计。但有一处“微调”特别值得玩味。

他们的 67B 模型有95 层,而对标的 LLaMA 70B 只有 80 层。在总参数量差不多的情况下,DeepSeek 选择了“更深”而不是“更宽”。

这有什么讲究?

想象你要建一栋办公楼,总面积固定。你有两种选择:一种是建得矮一些,但每层面积很大(更宽);另一种是建得高一些,每层面积缩小(更深)。哪种更好?

对于办公楼,高层能装下更多有独立办公室的部门,功能分区更清晰。对于神经网络,更深意味着更多的“抽象层级”——每一层可以对上一层的特征做进一步的提炼和组合。

这就像理解一个笑话。大脑的神经处理可能也有层级:第一层识别出这是语言;第二层理解字面意思;第三层捕捉到双关的可能;第四层结合语境;第五层才觉得好笑。层数越多,能处理的抽象程度越高。

但为什么不无限加深呢?因为有两个致命问题。

第一是梯度消失/爆炸。层数太多,信号从最后一层传回第一层时会变得越来越弱(或越来越强),导致前面的层根本学不到东西。好在现代架构(RMSNorm, SwiGLU, Rotary Embedding 等)已经较好地解决了这个问题。

第二是推理效率。层数加深意味着推理时必须串行计算——第 51 层的结果出来之前,第 52 层没法开工。如果层太深,即使单层计算很快,总延迟也会让人抓狂。而“加宽”(增加 d_model 维度)则可以通过并行来加速。

DeepSeek 选择了 95 层,说明他们在“高抽象能力”和“推理延迟”之间找到了一个平衡点。更深,但不过分深。这个决策没有魔法,只有 tradeoff——而识别和导航 tradeoff,正是架构师的核心能力。

一个小而美的细节:分词器

分词器(Tokenizer)负责把原始文本切成模型能处理的最小单元。英文里,“apple”可能是一个 token(词单元);中文里,“苹果”通常是一个 token。

DeepSeek 用的是 BBPE(字节级 BPE)算法,词汇量设为 102400。一个有趣的细节是:他们把数字拆分成单个数字——比如“2024”不是整体,而是“2”、“0”、“2”、“4”四个 token。

为什么这样做?我一开始也不理解。后来看到解释才明白:数字的组合是无限的,但单个数字只有 10 个。 如果把每个数字组合都当作独立 token,词汇表会爆炸。更重要的是,拆开后,模型可以真正“计算”——它能看到“2”和“4”之间的关系,而不是把一个叫“2024”的黑盒子直接吐出来。这为数学推理能力打下了基础。

这让我想起《道德经》里的一句话:“图难于其易,为大于其细。”天下难事,必作于易;天下大事,必作于细。大模型的成功,很多时候不在宏大的叙事里,而在这些深夜抠细节的决定里。


第二乐章 · 绘制寻宝图

第一乐章讲的是“搭炉子”。现在炉子搭好了,最核心的部分来了。

假设你是一个探险队队长,要在茫茫群山中寻找宝藏。你有有限的补给和人力(计算预算 C)。你需要决定:是派更多人去勘探(Model 规模),还是收集更详细的当地数据(Data 规模)?怎么分配效率最高?

这就是 Scaling Law 试图回答的问题。而 DeepSeek 的贡献,在我看来,是让问题本身变得更精确了。

3.1 超参数的宽阔山谷

机器学习里,有大量“超参数”需要设置——学习率啦,批次大小(batch size)啦,等等。这些参数不直接决定模型能力,但严重影响训练效果。

问题是:当你的模型规模从 1 亿参数扩大到 100 亿参数,这些参数的最优值会变吗?

之前的经典研究(比如 OpenAI 的 Kaplan 等人)发现,最优批次大小似乎只跟最终性能目标有关,跟模型大小或计算预算关系不大。如果是这样,你就不用反复试了——直接用之前的最优值就行。

但 DeepSeek 发现不是这样。他们做了大规模网格搜索后得出结论:最优批次大小 B 会随着计算预算 C 的增加而增加,最优学习率η会随着 C 的增加而减小。 并拟合出了明确的公式。

这背后有什么物理直觉?

学习率决定了模型每次调整参数的幅度。学习率大,步子迈得大,学得快但容易错过最优解。学习率小,步子精细,但可能走太慢。计算预算大的时候,你能跑的步数多,所以可以把学习率调小一些,走得更精细。 而批次大小越大,每个批次的数据越多,梯度估计越准,训练越稳,但单批计算量也大。预算大时,你有更多计算余量,可以承受更大 batch 带来的好处。

关键在于他们发现的另一个现象:最优参数空间非常宽阔。

用他们的话说,只要你的参数落在那个区域里,“generalization error remains stable across a wide range of choices”——泛化误差在很多选择下都很稳定。在另一处,他们把那些泛化误差比最低点高出不超过 0.25%的模型都标记为“near-optimal”(近似最优)。

0.25%。这意味着你稍微偏离最优设置,性能损失微乎其微。

他们把最优区域画出来,不是一条线,而是一个宽阔的条带(broad band)

这个发现对工程落地的意义巨大。这意味着你在训练大模型之前,其实不需要用超级昂贵的实验去精确寻找那个最优参数点。你只需要小心地通过小模型预测出一个大致范围,然后在大模型训练时,你大概率就落在这个“宽阔山谷”里。你不会踩在悬崖边缘,你走在一个平坦的高原上。

作为工程师,这让我大松一口气。它把“玄学调参”变成了“大约摸就行”。

3.2 计算的真实流动:为什么 C≠6ND?

这个标题写下来,我就知道是本章最硬核的部分。但也是最精彩的部分。我会努力让没有数学背景的读者也能感受到其中逻辑之美。

之前所有 scaling law 研究,在关联“计算量 C”和“模型大小 N”、“数据量 D”时,都使用一个近似公式:

C ≈ 6ND

这个公式是怎么来的?一个训练步(token)的前向传播需要约 2N 次浮点运算(一次乘法,一次加法),反向传播需要约 4N 次,加起来就是 6N。所以处理 D 个 token 的总计算量就是 6ND。

近似,但不是精确。

问题出在两个地方。第一,这个 N 到底代表什么?Kaplan 用的是“非嵌入层参数 N1”,就是大部分计算发生的那些层。Hoffmann 用的是“完整参数 N2”,包括嵌入层。这两者在小模型上能差出一倍以上。

第二,也是最关键的,两者都忽略了注意力(attention)机制的计算量。在大模型、长序列的情况下,注意力操作非常昂贵。

DeepSeek 团队引入了一个新度量:

M = 非嵌入层 FLOPs/token(令牌浮点运算次数)

也就是每个 token 经过模型时,实际发生的浮点运算次数,包含注意力操作,但不包含词汇映射那部分(因为词汇映射对“智能”贡献小)

这有什么了不起的?

旧公式 C=6ND 是一个近似值,实际上当你说“我要给这个模型 1e20 的算力”时,如果你用旧公式,实际上的算力可能有系统误差。在比较不同大小、不同配置的模型时,你的比较基线就是歪的。

而 M 让比较基线变平了。 在极小的模型上,旧公式 6N1/M 只有 0.43,意味着它严重低估了实际计算量。而在最大的模型上,N2/M 达到 0.94,就比较准了。你要是从小模型上去推测大模型的行为,带着系统误差的公式会给你指错路。

这就好比:你要测量一段距离,但你的尺子是橡皮做的——短距离时绷得紧,长距离时松,读数完全是歪的。DeepSeek 做的,就是换了一把准确的钢尺。

他们用这把“钢尺”重新做了 IsoFLOP 实验。

IsoFLOP 的意思是“等计算量”。给定一个固定的计算预算,比如 1e20 FLOPs,尝试不同的模型大小和数据量配比,看看哪个配比能达到最低的测试损失。比如你可以做一个 10 亿参数的模型,配 1000 亿 token 的数据;也可以做一个 30 亿参数的模型,配 333 亿 token 的数据。两者计算量一样,但效果不同。

他们做出了结果。拟合出:

M_opt ∝ C^0.5243 D_opt ∝ C^0.4757

四舍五入,50 比 50。

这个结果与 DeepMind 的 Chinchilla(49 vs 51)很接近,跟 OpenAI 的(73 vs 27)差别很大。

但等等,这还不算完。他们接下来做了一个让我眼前一亮的分析。

3.3 数据的材质与模型的形态

DeepSeek 在自己开发过程中,有早期版本的数据集,也有后期优化过的当前版本数据集。此外,他们还把 OpenWebText2(一个之前其他论文用过的公开数据集)也拿来跑了一遍。

三个数据集,得出的最优配比却不一样。

对于“早期数据”,a=0.450,b=0.550——数据更重要,应该把 55%的增量算力投入数据扩展。

对于“当前数据”(更高质量),a=0.524,b=0.476——模型和数据几乎一半一半,但模型略占优势。

对于 OpenWebText2(经过精心处理的小数据集),a=0.578,b=0.422——模型占据绝对主导,指数飙到 0.578。

一个非常清晰的趋势出现了:数据质量越高,最优化分配策略越偏向“扩大模型”而不是“扩大数据”。

这是什么道理?我坐在这里想这个问题,推演出了这样一个框架。

假设数据是食物,模型是吃食物长大的生物。给模型一堆低质量的垃圾食品,不管堆多少,它也长不出强健的推理能力。因为逻辑和推理是需要结构化和清晰信号才能学到的模式。低质量数据重复堆量,只是让它在同样的噪音里打转,边际收益递减得非常快。

但高质量数据,比如一本教科书,言之有物,逻辑严密。一个智商高的学生(大模型)反复读同一本教科书,是不是就能自己推导出很多全新的结论?反过来,一个智商低的学生(小模型),读再多遍教科书,内部消化吸收能力有限,也还是只能学到皮毛。

所以,数据和模型之间不是简单的堆料关系,它们中间有一个非常关键的“吸收”过程。 而这个吸收的速率,更多取决于模型的“理解能力”——从根本上来说,就取决于模型的规模。

这就解释了:数据质量越好,它就越“耐用”,一个强大的模型可以反复从中萃取营养。所以当你握有高质量数据时,最明智的策略是把增量算力投向模型,让它变得更强,去榨干这批优质数据的最后一点价值。

这个发现意味着:scaling law 不是一个普适常数,它依赖于你的数据。你看到别人论文里画的最优点,不一定是你家数据的最优点。归根结底,你得自己动手测试。

同时,它也提供了一个间接判断数据质量的工具——a 系数越高,暗示你的数据质量越好。


第三乐章 · 赋予模型灵魂

有了一个强大的预训练(Pre-training)模型,接下来怎么办?如果你直接用它进行对话,它会回答你一句话的下文是什么,而不是一个有用的、忠诚的、安全的 AI 助手。

把这个 raw 模型变成一个真正好用的对话伙伴,这个过程叫“对齐”(Alignment)。这个部分是整个流程中,最像“魔法”,也最像“艺术”的阶段。DeepSeek 的路线是:SFT(有监督微调,Supervised Fine-Tuning) + DPO(直接偏好优化,Direct Preference Optimization)

SFT 与 DPO 的默契

指令数据非常关键。DeepSeek 准备了约 150 万条指令数据,涵盖通用语言、数学和代码。SFT 就是用这些“问题-标准答案”对,给模型看,让它模仿。

但这里有一个矛盾。7B 小模型如果大量喂数学和代码数据,它的 conversation 能力会退化,最明显就是喜欢重复说话。因为数学和代码的推理链,天然就有很多重复模式。小模型概括能力弱,就学到了“不断重复”这个壳子。

DeepSeek 的办法聪明极了:两阶段 SFT。

第一阶段,全量数据,猛火快炒,主要是让它吸收数学和代码的逻辑能力。这时模型重复率 2.0%。

第二阶段,只喂高质量对话数据,不喂数学和代码。这时,它不是因为学习了“不要重复”来降低重复率,而是学习了更流畅、更多样的对话模式。当它学会能用多种方式表达同一意思后,自然就不会在一个死循环里打转了。最后重复率降到 1.4%,数学和代码能力还在。

67B 模型只做第一阶段就够了,因为大模型本身有更强的泛化能力,不容易掉进重复陷阱。

在 SFT 之后,DeepSeek 还使用了 DPO。DPO 是一种新兴的偏好对齐方法。它不让模型去死记硬背标准答案,而是给它一对回答——一个好,一个坏——让它去学习“人类更偏好哪种回答”。

结果是,DPO 几乎不影响各项跑分,但在开放式对话、安全性和角色扮演上,提升明显。比如 MT-Bench 评分,从 8.35 跳到了 8.76。

数据配比的化学

他们的指令数据配比:31.2%通用语言,46.6%数学,22.2%代码。 数学数据占了快一半。为什么?

因为数学数据兼具了“严密逻辑”和“最终答案确定性”两者之长。代码也有类似特点,但数学更是对纯粹推理的训练。可以说,数学是这颗药丸里的“健脑成分”。

不过他们也观察到了一个微妙的现象:加太多数学 SFT 数据,会让小模型更容易重复。显然,数学和对话之间,有一条需要小心平衡的界线。

一个体现极致务实的选择

在整个对齐过程中,最让我肃然起敬的一个细节是:他们选择故意不加多项选择题(MC Data)数据

在 SFT 阶段加入大量选择题训练,可以大幅拉升 MMLU、C-Eval 这类多项选择评测集的分数。智谱、百度等很多模型的 SFT 策略里都这么干。

DeepSeek 也试了。加了 2000 万道中文选择题后,C-Eval 涨了 24 分,涨幅惊人。但他们去测其他非选择题、生成式的评测,发现分数没变化。

顿时,这支团队明白了:加选择题,只是在教模型“考试技巧”,不是在教它“真正的知识和推理”。

他们于是决定,为了报告的纯洁性,放弃这唾手可得的分数提升。

读到这一段,我心里涌起一阵敬意。这是真正的工程师精神:求真,务实,不装,不作弊。 分数是给别人看的,智能是留给自己去突破下一个难题的。


第四乐章 · 不仅是跑分

评估环节,是所有 AI 论文最“卷”的部分。排行榜,柱子高一点,低一点,媒体追逐,股价波动。

但 DeepSeek 的评估章节,信息密度极高,且蕴含着远超跑分的技术洞见。

他们分了四个层次来评估:标准公开基准(Base 和 Chat)、开放域评测(AlignBench, MT-Bench)、留出集防污染评测(LeetCode, Hungarian Exam)和安全评测。

我挑里面几个最有意思的来说。

对比的艺术

他们最核心的对比对象是 LLaMA 2。结论是:在同样使用 2T token 双语数据训练的情况下,DeepSeek 67B 在代码、数学和推理上,已经显著超越了 LLaMA 2 70B。

这意味着什么?意味着“数据构成”和“scaling law 指导下的训练方法”的价值,已经盖过了“参数量”的差异。

在代码和数学上,DeepSeek 67B Base 甚至能和专门训过的 CodeLlama 掰手腕,而他们的普通能力要强得多。而在数学上,DeepSeek 67B Chat 配合工具使用,成绩甚至超过了当时的专用 SOTA 模型 ToRA。

这说明了一个深刻的道理:一个扎实的、全面的通用底座,可以在专项上媲美甚至超越专项模型。博和专,不是对立的,博到深处,本身就是一种更高级的专。

系统提示的涌现

DeepSeek 做了个很有意思的测试:给模型加一个系统提示词,类似于“你是一个由 DeepSeek 创造的有用、诚实的人工智能助手……”。

结果,7B 模型加上提示词后,MT-Bench 分数不升反降,从 7.15 微跌到 7.11。而 67B 模型加上提示词后,分数从 8.35 大涨到 8.58。

他们的解释是:小模型理解不了系统提示词的深层意图,反而被这种“训练时不存在的格式”搞糊涂了。而大模型真正理解了系统提示词是在给它下达行为准则。

这种现象在 AI 界有个专门的名称:涌现(Emergence)。当模型跨过某个规模阈值,会突然获得一些小模型完全没有的能力。指令遵循就是一种涌现能力。 它不是设计出来的,不是训练目标明确包含的,而是规模到了,自然产生的。

这让人对“长期主义”有了更深的信任。很多东西,不必在每一个中间步骤去着急优化。

对齐税的思考

一个几乎所有团队都观察到的现象是:有时候 SFT 和 RLHF 会带来一个矛盾效应——安全性提升了,对话能力变好了,但标准学术 benchmark 的分数反而下降了。 这种现象叫“对齐税”(Alignment Tax)。

DeepSeek 也看到了。HellaSwag(一个完形填空式常识测试)在 SFT 后分数下降。他们的分析是:“这些任务通常涉及完形填空或句子补全……纯语言模型更擅长处理此类任务。”

翻译成大白话:鱼与熊掌不可得兼。 当你让模型学会像人一样对话时,它在“预测下文”这种模式下的表现自然会退化。这不是失败,只是一个需要接受的 tradeoff。

留出集的残酷考验

很多模型,小模型,都能在 GSM8K、HumanEval 上考高分,刷榜刷得很开心。

但在全新的、模型绝对没见过的留出测试集上呢?

他们用 LeetCode 竞赛题(2023 下半年的新题)、匈牙利数学、以及谷歌的一个指令遵循评估集来测试。

结果触目惊心。ChatGLM3 在 MBPP 上拿了 52.4 分,但在 LeetCode 上直接掉到 2.4;在 GSM8K 上拿了 72.3 分,在匈牙利上只有 32 分。

而 DeepSeek 67B,三个测试都稳稳站住,不仅远超小模型,也大比分甩开了一批更大或同级的模型。

这说明:小模型的刷榜高分,存在着严重的“过拟合到评测集”的水分。真正面临没见过的新题时,它的缺陷暴露无遗。而大模型的“智能”,是更加本质的。 这是一个残酷的真相,但也是所有认真在做 AGI 的团队必须直面的。


终章 · 从 C2C 到 AGI

万字拆解到这里,已近尾声。回到我们自己。

2010 年,我在阿里主导 B2B 技术架构。当时每天 10 亿次服务调用,支撑着全中国乃至全球的中小企业做生意。我们从单体架构,历经痛苦的拆分,演化为 1000+微服务的分布式系统。支撑了 2007 年史上最狂热 IPO,也支撑了 2012 年那个从港交所私有化的壮士断腕。

那个过程教会了我一件事:系统规模每扩大一个数量级,原先的架构假设就会崩塌。能让你在未知水域安然航行的,不是你有多聪明,而是你是否真正摸清了风浪的规律。

我读到 DeepSeek 这篇论文时,看到了同一种信仰。

他们没有急于做一个“震惊世界”的最大模型,而是扎扎实实回头,重新检查最基础的问题:Scaling Law。他们不怕花费算力去重新跑那些基础曲线,重新审视 batch size 和 learning rate,重新定义计算量 M。因为他们相信,只有在这些最基础的“地基”上建立起的万丈高楼,才不会在风暴中轻易倒塌。

DeepSeek LLM 不仅仅是一组模型的发布。它是一份宣言:真正的长期主义,不是等待未来,而是基于对规律的深刻理解,去准确预测并有效抵达未来。

我在简历开头写道,我现在致力于“Phaenarete 项目”——人类与 AI 协作,向希尔伯特第八问题(黎曼猜想)进军。我们用一种叫做 PrimeClaw 的多智能体框架,结合 Lean 4 语言,让 AI 去辅助探索那些深藏于素数分布背后的数学真理。

我的工作不是去“算”出黎曼猜想的对错,而是构建一套方法论,一种像 Scaling Law 一样的东西——揭示“人类直觉”和“AI 穷举”之间最优的合作配比到底是什么,如何随着问题难度的扩展而扩展。

我们在纯粹的数学领域里探索,他们在工程领域里探索,但底色是一模一样的:面对巨大的未知,不靠拍脑袋,不靠碰运气,靠的是绘制精确的地图,然后再启航。

深夜,再次审读这篇论文时,我想起《庄子·养生主》里的庖丁解牛:“依乎天理,批大郤,导大窾,因其固然。”我心目中的架构,就应该是“因其固然”的架构。DeepSeek 团队所做的,正是深入牛体的肌理,找到那些天然存在的缝隙(Scaling Law),然后顺着它们精准地用刀。

在浮躁的 AI 圈,这种沉静的力量,最是动人。

© 2026 良之世界. 版权所有.

站点总字数: — 字 | 总访问量: — 次 | 总访问人数: — 人