致善衡容：人生博弈的不败心法

夜读康威的生命游戏，屏幕上的细胞明明灭灭，滑翔机穿越网格的边界，复刻机静静复制自身。简单规则反复迭代，竟能涌现如此复杂的生命图景。我在计算机系统领域摸爬了二十多年，见过无数精密的架构、复杂的策略、高深的算法。可真正经得起时间冲刷的，永远是最简单的那几条。

博弈之道，亦是如此。

一、囚笼里的聪明人

囚徒困境的设定近乎残忍：两个嫌犯分开审讯，都沉默各判一年，都招供各判八年，一人招供一人沉默，招的走人，沉默的判十年。

只玩一局，怎么选？背叛。因为无论对方选什么，你背叛总能占便宜。对方也是聪明人，也算得出这个账。两个聪明人碰到一起，结果就是双双把牢底坐穿。

2004 年我初入阿里时，中国的互联网江湖遍地是这样的“一次性博弈”。假货、卷款、虚假广告，每一桩都顶着“理性”的帽子——既然明天不再见，不坑白不坑。

可阿里巴巴走了一条相反的路。评价系统、担保交易、信用积分，这些机制看似笨拙，实则暗藏更深层的智慧：它们硬生生把陌生人之间的一次性买卖，扭成了一张熟人之间反复博弈的网。你今天骗一个人，明天整个市场都知道。你老老实实做三年生意，所有的好评和信用都会变成未来每一笔订单的背书。

在单次博弈里，背叛是理性的；在重复博弈里，合作才是理性的。 这个弯绕过来，需要的不只是聪明，更需要格局。

二、锦标赛教会我们的事

1980 年代，政治学家罗伯特·阿克塞尔罗德做了一件划时代的事。他向全球顶尖学者征集策略程序，让它们在重复囚徒困境中两两对决两百回合。

参赛者们各显神通。有的程序给每个对手建立档案，分析对方被背叛后的反应概率，据此决定下一步是该示好还是下黑手。有的程序逻辑嵌套，看起来高深莫测。有的信奉一次不忠百次不用，被背叛过一次就永不原谅。还有的程序试图预判对手的预判，在合作与背叛之间精密计算每一步的得失。

赢家是谁？

一个只有四行代码的策略。以牙还牙。 规则简单到令人发指：第一步先合作，之后每一步重复对方上一步做的事。你合作我合作，你背叛我背叛，你回头我翻篇。

第二场比赛，六十三路高手带着专门针对冠军设计的反制方案卷土重来。更狡猾的试探、更精准的背叛、更残酷的报复，全都冲着破解那四行代码而来。结果冠军还是它。

那些多算三步、预判你的预判的复杂策略，全输给了一个四行代码的“傻子”。

我在阿里负责技术系统那些年，无数次验证过这个道理。一个每天承载十亿次调用的分布式架构，最怕的不是单一故障，而是过度设计。那些层层嵌套的容灾逻辑、互为镜像的降级预案，往往在真实灾难中连环坍塌。临到关头，最管用的反而是最简单的主备切换加自动重试，平平无奇，却次次扛住了考验。

简单，才是最高级的强大。

三、致善衡容的四重心法

阿克塞尔罗德把所有顶尖策略拆开来看，提炼出四个共同特质。它们不是什么高深的理论，而是成千上万轮博弈试炼之后，被反复验证过的生存铁律。我将它们凝练为四个字——致善衡容。

一曰致善——不亮第一把刀。

所有赢家策略，没有一个会主动发起背叛。原因简单到几乎朴素：你捅第一刀，对方记住你，日后必定还回来。一时占的便宜，抵不过漫长报复的代价总和。

2007 年阿里 B2B 上市那年，平台已经有数千万中小企业用户。我们的系统团队日夜守着一件事：让诚信能够被看见。不是靠喊口号，是靠技术。评价体系让每一次守信和每一次背信都留下痕迹，担保交易让信任有据可依。我们不是在教育商家做好人，而是在设计一个让“做好人”比“做坏人”更能挣钱的博弈环境。

善良不是一种品德，是一种远见。 在重复博弈的世界里，善意不是吃亏，而是最长线的投资。

二曰持衡——不容人欺。

但善良绝不意味着软弱。以牙还牙不容忍背叛，你一旦背弃，它立刻还手，没有半点犹豫。

《论语》里有人问孔子，以德报怨如何。孔子反问，那拿什么报德？以直报怨，以德报德。两千多年前的东方智慧，跟二十世纪博弈论跑出来的最优解，不谋而合。

在阿里做平台治理那些年，这条线最考验拿捏。刷单的、售假的、套取补贴的，如果没有惩处，规矩就形同虚设，守规矩的人反而成了笑话。所以规则必须有牙齿，惩处必须让越界者感到痛。宽容若没有边界，就是纵容；善良若没有底线，就是懦弱。 让对方知道，越界一定会有回响。这恰恰是对所有守规矩的人最大的保护。

三曰存容——留一条回头路。

这是最容易被忽略，却最要紧的地方。以牙还牙报复完了，立刻翻篇。只要你下一轮合作，它马上恢复合作。不记仇。不存在那种“你三年前对不起我，现在我还要找补”的账本。

多少关系毁于记仇。今天一个无心之错，我记下了；改天找个机会找补回来，你也记下了；你再反击，仇恨越滚越大。最后合作的基础彻底碎裂，双方都忘了最初是为了什么走到一起。

我在 B2B 平台那些年，见过无数商家因一次失误面临永久封杀。但我们始终坚持一条：处罚要快，处罚之后重返正常经营的大门也必须敞开。不是姑息——是知道一旦把人逼到绝路，他就只能跟你对抗到底。博弈论里后来的“容许噪声”实验也证明，加了约百分之一到五原谅概率的以牙还牙，才是不完美世界里的终极赢家。现实中的合作永远有失误、有误解、有信息不对称，零容忍的策略也许在计算机模拟中逻辑完美，但在真实世界里注定走不远。

有边界的宽容，不是软弱，而是格局。 报复树立边界，宽容打开前路，二者缺一不可。

四曰守清——让人看得透你。

以牙还牙之所以能激发出最广泛的合作，恰恰因为它透明到毫无城府。对手很快就能摸清：这人不耍双面，不搞试探，不藏着掖着。合作换合作，背叛换报复，一切都可以预期。

在复杂系统里，最昂贵的成本从来不是金钱，而是不确定性。一旦规则模糊，朝令夕改，参与者的第一反应一定是“谁知道明天什么规矩，不如趁现在捞一把跑”。

我在浙江大学软件学院带电子商务技术系时，常跟学生讲一句话：最好的代码，是别人一眼能看懂的代码；最好的规则，是所有人一看就明白的规则。在阿里，我们花了极大力气让平台规则透明。什么事能做，什么事不能做，踩了红线是什么后果，白纸黑字清清楚楚。大商家小商家，新来的老到的，都能在同一个规则下安心经营。

可预期，就是最大的可信赖。 城府太深的人，没有朋友。规则透明的生态，才有繁荣。你让人猜不透，别人就不敢跟你玩；你足够坦荡，合作者自然聚拢。

四、不败者的底色

2012 年阿里 B2B 从港交所私有化退市，整个集团经历了一场脱胎换骨的重组。那段时间我作为 CTO，带领技术团队完成了架构演进，支撑了后续整个集团的重塑。风暴之中，我反复体悟到一个道理：越是剧烈变动的环境，简单的原则越是珍贵。不是那些花巧的策略，不是那些精巧的算计，而是那些善良的、坚定的、宽容的、清晰的选择，像狂风中的锚一样，稳住了我们能够穿越周期的航向。

2007 年阿里上市，发行价 13.5 港元，收盘 39.5 港元，市值冲到 1996 亿港元，超额认购 258 倍，创下香港 IPO 的纪录。那个资本神话的底下，是什么在支撑？不是天花乱坠的故事，不是惊世骇俗的技术，是数千万中小企业日复一日在一个平台上做生意的朴素事实。每一次诚信交易，都是一次信任的累积；每一次守约，都是在为未来投资。市场的眼睛是雪亮的，当它看清了这个博弈结构的稳定性和持久力，资本的投票便水到渠成。

从 1980 年代的计算机锦标赛，到阿里平台上的亿万个真实交易，从康威那几行代码就能涌现的生命图案，到人类文明数千年演化至今的信任机制——不同的尺度，同一条脉络：

最终的赢家，不是最能算计的人，而是最能让别人愿意跟他合作的人。

致善者，不先举起刀锋；持衡者，不容规则被践踏；存容者，不为旧怨堵死前路；守清者，不让人猜不透心思。四者兼备，便是博弈场上的不败英雄。

五、从阿里到希尔伯特：博弈论的更大棋盘

2018 年，我离开阿里巴巴，转身投入了一个全新的领域——人工智能与数学的交叉研究。今天，我作为[某人工智能公司]的联合创始人与 CTO，带领一群年轻人投身“Phaenarete 计划”——探索人类与 AI 在数学前沿的协作，目标直指希尔伯特第八问题，那座屹立了一百六十余年的黎曼猜想高峰。

从商业世界到数学世界，棋盘换了，但博弈的底层逻辑没有变。

数学研究也是一种重复博弈。数学家与未知之间，每一轮尝试都是一次合作或碰壁；研究者社群之间，每一次分享和验证都是一轮信任的建立。我们开发的 PrimeClaw 多智能体框架，让 AI 与人类在形式化验证中相互校验，正是基于同样的信念：透明、可预期、容错、不先出恶意。复杂的猜想需要漫长的时间去逼近，而在这漫长的重复中，唯有善良的策略才能走到底。

我和团队正在做的，是用博弈论的精神去设计人机协作的规则——让 AI 不先“背叛”人类的直觉，让人类不因 AI 的一次错误而永久关闭协作之门，让验证的过程清晰透明，让每一步推理都有据可依。致善衡容不仅是商业博弈的心法，也可以成为人机协作的伦理框架。 这是我离开阿里时想清楚的事，也是我走到今天仍在前行的动力。

结语

“隐锋芒自辉昂”，这是大众辉昂当年的广告语。我第一次读到，心中一动。

锋芒不必时时亮在外面。那些咄咄逼人、处处争先、把聪明写在脸上的策略，往往走不远。反倒是那些不先出手、却不惧还手、既往不咎、规则清晰的人，无需声张，自有一种让人安心靠近的力量。这种力量沉淀下来，便是不败的底气。

选择善良不是天真，坚守原则不是死板，既往不咎不是健忘，简单透明不是浅薄。它们是这个复杂世界里，经过漫长演化和反复博弈之后，被筛选出来的、真正不败的生存智慧。

良之，2026年