AI 写芯片写了 18 小时:机房还在按「短跑」配散热吗?

发布时间:2026/7/1 3:12:18

AI 写芯片写了 18 小时:机房还在按「短跑」配散热吗? 6 月下旬豆包Seed 2.1上线火山方舟。有一条案例在技术圈传得挺凶16×16 的 Tiny NPU TileAgent 跑了近 18 小时、9 轮迭代交出 6 个模块、1303 行 RTL。我第一反应不是「模型又强了」——是谁给它加了一宿班。这 18 小时里算力多半一直顶在高位芯片热得很实在。以后谈机柜和机房心里得按这种节奏留余量不是训练完就能让 CDU 歇会儿的那种了。一、从「聊几句」到「跑一宿」负载节奏真的变了很多机房脑子里还是训模型那套我也理解过去确实好使。• 拉起一个大 job满负载几小时到几天• job 一停负载掉下来一次侧也能跟着松口气——CDU 不用一直顶在高位。Agent 长任务完全是另一回事训练短跑Agent马拉松时长有高峰中间能歇小时级连轴转常 overnight负载峰值高、间歇明显中高负载长时间贴着散热容易犯的错峰值够就行只盯峰值、忽略平均热机房体感「偶尔吵一阵」「怎么一直热、一直费电」说白了AI 越来越像睡在你机房的同事不是聊两句就走的访客。云厂推理算力也在加码——和 6/25 推理算力那篇 一条线今天不展开表就记一句负载更像长跑不像冲刺。二、按短跑定散热跑马拉松一定吃亏1. CDU 只按峰值买平时按平均跑——迟早顶格Agent 区长时间中高负载一次侧和 CDU 若按「偶尔满负荷」留余量平时就容易顶格、降频或猛加泵。PUE 难看不说机房那动静待久了真的烦。2. 训练区和 Agent 区共用一套「分时供冷」——两边都不舒服训练 job 结束能歇Agent 区像常开冰箱。一套调度A 区浪费、B 区不够。后面得分区供冷、分区计量不是 PPT 里写一句「全楼液冷」就踏实了。3. 还指望风冷「补一点」——越来越不现实机柜功率档往上走液冷基本是主路径Rubin 这一代更是45℃ 温水液冷往量产走——英伟达把「温水进机房」写进平台规格不是噱头是常开高负载下的现实选择。Agent 叠在高密柜上风冷补刀的空间说实话越来越小。三、定散热方案前先问这排机柜是短跑还是马拉松别被「冷水」两个字带偏——现在新建高密柜讲的是冷板 CDU 一次侧很多规格已经是4045℃ 温水在循环不是你以为的「越冷越好」。先问一句这排机柜是偶尔满负载还是长时间中高负载•短跑峰值 间歇一次侧和 CDU 还能跟着喘口气。•马拉松平均热 峰值一起算温水回路和电都要按常开入账6/23 2300W 热栈 里说的堆栈加价很多就卡在这——不是芯片突然变热是热根本停不下来CDU 也下不来。这种常开负载长期账单往往在泵功和一次侧不是少拧几个快接头。我们做过120kW 级混部对比冷泉能控现场同样负载两相冷板侧所需流量可低到单相约 1/3量级靠相变潜热带走热UQD 个数仍看冷板路数、并联和冗余——流量下来接头未必少。这一点我踩过坑别被销售 PPT 带跑。四、跟你有什么关系1.AI 涨价、限流——背后常有电和散热不只是模型贵你付的 Token有一部分是在买机房能一直扛住。2.绿色数据中心宣传——Agent 区常开PUE 差 0.1都是真电费温水液冷也不是「免费午餐」回路常开就得一直转。收束18 小时 RTL只是开头长任务 散热马拉松。机房若还按训练短跑定 CDU 和一次侧会先卡在常开的热和电上——不是模型不够聪明是基础设施还在按旧节奏喘气挺浪费的。你那边训练峰值和Agent 常开哪个更让你头疼留言区投一票下篇写混部机房怎么分区。往期推理算力 122%06-25 · 2300W 热栈06-23 · SpaceX 散热06-18两个常见追问简答Q145℃ 温水会不会「不够冷」、芯片更热A冷板侧有自己的工质循环45℃ 指的是一次侧温水不是 die 表面温度。平台写 45℃是在高密 常开下换PUE 和一次侧经济性——别用家用空调「越低越好」去套机房。Q2训练区和 Agent 区能不能共用一台 CDUA物理上可以逻辑上要分开想。共站可以但要分回路、分计量、分冗余否则训练区间歇时省下来的电会被 Agent 区常开吃掉账永远算不清。

相关新闻