
1. 导读《兵法》云多算胜少算不胜而况于无算乎。构建的冗余越多容错能力越强成功概率越高。2. 心理实验赶飞机我们先做一个头脑实验。假设你要赶飞机从家里到机场是一个小时的车程机场安检需要半小时飞机提前半小时关舱门那你应该什么时候出门如果一切顺利的话预留两小时肯定够了。但路上可能会堵车我们需要再预留半小时。经验告诉我们这样还不够因为存在未知的风险。我曾经坐上出租车很久了才发现吃饭的家伙忘带了我的电脑包居然忘家里了。为了对冲这些未知的风险我们需要再预留半个小时所以你应该提前3个小时出门。3. 未知之未知人类的认知是有边界的这个边界可以分为三层已知的已知我们知道我们知道的。比如我们知道宇宙有黑洞、暗物质已知的未知我们知道我们不知道的。比如我们知道我们对黑洞、暗物质的了解很少未知的未知我们不知道我们不知道的。比如宇宙中还有哪些不为人知的秘密我们对此还没有形成概念更别提从原理上去解释。对于已知的已知我们有能力驾驭对于已知的未知我们有机会防范而对于未知的未知我们连问题本身都不知道又该如何防御呢答案是构建冗余。4. 冗余是生命之本人体的感官左右对称运动和骨骼系统也是左右对称生殖和内分泌系统也是左右对称。人体的代偿能力则进一步强化了这种设计。身体某些组织或器官持续受损在没办法恢复原样的情况下人体会调用没有受损的部分加快代替、补偿受损的部分完成工作①。例如一个肾在损伤或被切除后另一个肾可以承担起全部的工作。心脏或大脑的某条主要血管堵塞后身体会刺激周边的小血管扩张、增生形成新的供血网络。人体通过对称的结构并配之以代偿能力通过足够的冗余提高了在自然环境下的生存能力。冗余带给生命的力量是惊人的。有一种治疗难治性癫痫的手术叫大脑半球切除术病人在术后经过有计划的康复训练另一侧的大脑就可以代偿替代切掉的脑组织完成任务病人依然可以像正常人一样生活。5. 冗余是商业之本在生物制药行业有一个关于“101010”的统计数据也就是用十亿美金、花十年时间去研发一款新药最后成功上市的概率是10%。生物制药企业的前期投入很大建厂、盖实验室、招募科学家都需要钱。实验室里成功拿出候选分子后临床研究才是真正的吞金兽。所以任何一家生物制药企业都必须解决“高投入、高风险、长周期”的问题而解决之道就在于冗余多条产品线例如肿瘤、眼科、代谢、自我免疫。这些产品线中如果有一条产品线出了大药其收益就可以覆盖其他产品线的投入多个候选分子。每条产品线同时推进多个候选分子且不同的候选分子处在不同的阶段(研发、一期临床、二期临床、三期临床)提升整体成功率临床数据有冗余。候选分子进入临床后通常后期的数据相比前期会有打折但如果前期的数据扎实且优秀后期数据即便有打折也会同样优秀成药的概率也很大。通过三层冗余生物制药公司构建起稳健的管线(Pipeline)再加上快速试错机制实现风险的有效控制。如果你觉得这个例子离你太远我们可以做个类比。假设每个孩子成才的概率彼此独立且都是50%而一个孩子成才了父母就算成功那么如果你有一个孩子你成功的概率是50%有两个孩子成功的概率升至75%有10个孩子则升至99.9%。6. 冗余是立国之本6.1. 明朝九边镇守体系古代中原王朝立国会依据山脉、水文构建多道防御体系包括依托黄河、长江天险修建工事例如秦汉的函谷关、隋唐的潼关南京的石头城在崇山峻岭间修筑长城例如我们现在看到的明长城依托山脉修建关隘例如秦岭山脉的剑门关、恒山山脉的雁门关、燕山山脉的居庸关。中原王朝深知北方骑兵快马弯刀、来去如风一条防线不足以完全抵挡骑兵的进攻所以在构建国防线时通常会部署多道防线避免一条防线被击溃或者绕过之后骑兵直接进入华北平原。明朝的“九边镇守体系”就是在这个背景下产生是中国历史上规模最大、组织最严密的边防战略工程。“九边镇守体系”沿长城一线设置了九个军事重镇②。由于自大同南下是蒙古骑兵进入北京最快的路径明朝构筑了两道防线宣府镇、大同镇负责外长城防线山西镇负责内长城防线后者作为前者被突破后的第二道防线共同拱卫京师。“九边镇守体系”确保了北京的政治稳定性这套系统在明朝立国近200年后才真正被挑战。即使游牧骑兵成功突破长城防线兵临京师城下京师高大宽厚的城墙也是难以攻克的。京师的城墙有三道起到层层防御的作用为边将勤王提供缓冲时间外城最外层直接暴露在敌军面前最先受冲击皇城中间层京师第二道防线宫城(紫禁城现在的故宫)最内层城中城最后受冲击。总之国防、城防都需要一定的冗余。6.2. 北宋立国之艰难明朝的“九边镇守体系”有个前置依赖燕云十六州必须在中原王朝手里。燕云十六州即今天的北京、天津、河北北部及山西北部横跨燕山山脉与太行山脉山势险要仅有少数关隘可以通行。把住这些关隘就能阻挡北方骑兵南下。十六州往南是一平如砥的华北平原那里一马平川、无险可守。自后晋皇帝石敬瑭将燕云十六州割让给契丹之后长达400年的时间里一直在胡人政权手里中原王朝失去了燕山山脉(河北)和太行山脉(山西)的天然屏障华北平原直接暴露在北方骑兵的铁蹄之下。北宋立国之艰难可想而知“大河北岸的敌骑长驱南下更没有天然的屏障三四天即到黄河边而开封则是豁露在黄河南岸的一个平坦而低洼的所在。所以一到真宗时边事偶一紧张便发生根本动摇。”③北宋唯一的天险就是黄河国都汴京(河南开封)距离黄河只有50公里北方骑兵一旦过河一日可抵汴京城下后世因此感慨北宋“有国无防”。至于靖康之难北宋亡国部分原因可以归结为冗余缺失。7. 冗余足够才能稳双十一技术实战我参加了阿里巴巴2012~2020年的九届双十一大促活动。双十一技术挑战最大的是11.11零点的3分钟这3分钟的瞬间流量是双十一当天流量的3倍是平时流量的30倍能否抗住这3分钟极其关键。为此技术上做了多层冗余设计提供多层次的容灾、容错能力共同保障系统稳定性。电商的后端服务器一般都采用如下的结构手机App浏览器 -- 接入层网关 -- 应用服务器。接入层网关首先有同城互备能力也就是在一个城市有两个数据中心如果其中一个数据中心不可用可由同城的另一个数据中心接管流量。接入层网关还同时在多个城市部署任一城市的节点不可用之后其他城市的节点可以按比例分担前者的流量。接入层网关根据下游应用服务器的能力对用户流量做限流设计容量之外的用户请求会被网关直接拒绝。业务服务器也会检测自身的流量如果发现超出设计容量也会拒绝服务。最后所有的服务器都会对物理网卡、CPU、内存做实时检测如果发现服务器的带宽、CPU、内存超过阈值则在更底层拒绝服务。8. 没有冗余很难赢阿里履带战略的挑战阿里的履带战略由马云提出其核心逻辑是通过不同业务板块的“轮流领跑”确保企业整体始终处于上升趋势。为此马云将阿里的业务划分为不同梯队第一梯队(成熟期)淘宝、天猫。它们是公司的“现金奶牛”负责产生利润来养活后面的业务第二梯队(接棒期)蚂蚁金服。当电商增长趋稳时支付与金融业务开始接棒成为新的增长引擎第三梯队(孵化期)阿里云、菜鸟网络、达摩院。这些业务在初期不追求利润甚至需要长期亏损烧钱但它们决定了10年后的竞争力。这个战略如果顺利推进阿里的前途将一片光明市值突破万亿美金指日可待但这个战略是有前置依赖的第一梯队在第二梯队接棒之前地位必须稳固否则会出现青黄不接的情况第二梯队在第一梯队不再增长之后必须及时接棒否则第三梯队就要承压甚至要替第二梯队补位第三梯队在10年后必须像10年前的第一梯队、今天的第二梯队一样占据着经济发展和科技发展的C位。如果出现偏差则后继无人。所以这套战略要求业务板块之间做到严丝合缝履带才能正常运转但现实却非常的严峻阿里的电商业务被拼(多多)抖(音)快(手)蚕食市场份额迅速下降蚂蚁金服上市受阻直接打乱了既定节奏第三梯队从孵化期提前进入接棒期第三梯队的重点是阿里云阿里云被字节跳动的火山引擎正面挑战。从2020年开始阿里经历了艰难的调整市值也在剧烈波动好在阿里家底雄厚、现金充足未来依然可期。9. 结语如巴菲特所言我们不知道我们不知道什么所以我们不仅要看到已知的风险还要看到未知的风险而冗余就是对抗未知风险最好的办法。最后给大家讲个小故事2011年京东电商强势崛起阿里巴巴在这个背景下成立了一淘专门负责站外搜索与此同时阿里也加强了淘宝的站内搜索这里的站内是指阿里体系之内站外是指阿里体系之外。这个布局很有意思如果淘宝胜出了意味着流量都在站内不需要一淘如果一淘胜出了意味着流量都在站外那淘宝就彻底败了。马云为啥要两头押宝呢10. 声明您看到的文章是我根据20年的工作、生活感悟而创作的它是一个系列旨在提供理解历史和当代的思考模型从而更好解决现实问题。每周都在更新如果你喜欢记得多多关注。你的关注我的动力工程师思维反噬|为何成功成了失败之母工程师思维杠杆解|如何以小代价拿到大收益工程师思维冗余|冗余越多容错能力越强11. 引用材料①薄世宁《薄世宁医学通识讲义》②图片来源地图帝的个人主页③钱穆《国史大纲》