AI 写芯片写了 18 小时：机房还在按「短跑」配散热吗？-尧图网站设计

6 月下旬豆包Seed 2.1上线火山方舟。有一条案例在技术圈传得挺凶16×16 的 Tiny NPU TileAgent 跑了近 18 小时、9 轮迭代交出 6 个模块、1303 行 RTL。我第一反应不是「模型又强了」——是谁给它加了一宿班。这 18 小时里算力多半一直顶在高位芯片热得很实在。以后谈机柜和机房心里得按这种节奏留余量不是训练完就能让 CDU 歇会儿的那种了。一、从「聊几句」到「跑一宿」负载节奏真的变了很多机房脑子里还是训模型那套我也理解过去确实好使。• 拉起一个大 job满负载几小时到几天• job 一停负载掉下来一次侧也能跟着松口气——CDU 不用一直顶在高位。Agent 长任务完全是另一回事训练短跑Agent马拉松时长有高峰中间能歇小时级连轴转常 overnight负载峰值高、间歇明显中高负载长时间贴着散热容易犯的错峰值够就行只盯峰值、忽略平均热机房体感「偶尔吵一阵」「怎么一直热、一直费电」说白了AI 越来越像睡在你机房的同事不是聊两句就走的访客。云厂推理算力也在加码——和 6/25 推理算力那篇一条线今天不展开表就记一句负载更像长跑不像冲刺。二、按短跑定散热跑马拉松一定吃亏1. CDU 只按峰值买平时按平均跑——迟早顶格Agent 区长时间中高负载一次侧和 CDU 若按「偶尔满负荷」留余量平时就容易顶格、降频或猛加泵。PUE 难看不说机房那动静待久了真的烦。2. 训练区和 Agent 区共用一套「分时供冷」——两边都不舒服训练 job 结束能歇Agent 区像常开冰箱。一套调度A 区浪费、B 区不够。后面得分区供冷、分区计量不是 PPT 里写一句「全楼液冷」就踏实了。3. 还指望风冷「补一点」——越来越不现实机柜功率档往上走液冷基本是主路径Rubin 这一代更是45℃ 温水液冷往量产走——英伟达把「温水进机房」写进平台规格不是噱头是常开高负载下的现实选择。Agent 叠在高密柜上风冷补刀的空间说实话越来越小。三、定散热方案前先问这排机柜是短跑还是马拉松别被「冷水」两个字带偏——现在新建高密柜讲的是冷板 CDU 一次侧很多规格已经是4045℃ 温水在循环不是你以为的「越冷越好」。先问一句这排机柜是偶尔满负载还是长时间中高负载•短跑峰值间歇一次侧和 CDU 还能跟着喘口气。•马拉松平均热峰值一起算温水回路和电都要按常开入账6/23 2300W 热栈里说的堆栈加价很多就卡在这——不是芯片突然变热是热根本停不下来CDU 也下不来。这种常开负载长期账单往往在泵功和一次侧不是少拧几个快接头。我们做过120kW 级混部对比冷泉能控现场同样负载两相冷板侧所需流量可低到单相约 1/3量级靠相变潜热带走热UQD 个数仍看冷板路数、并联和冗余——流量下来接头未必少。这一点我踩过坑别被销售 PPT 带跑。四、跟你有什么关系1.AI 涨价、限流——背后常有电和散热不只是模型贵你付的 Token有一部分是在买机房能一直扛住。2.绿色数据中心宣传——Agent 区常开PUE 差 0.1都是真电费温水液冷也不是「免费午餐」回路常开就得一直转。收束18 小时 RTL只是开头长任务散热马拉松。机房若还按训练短跑定 CDU 和一次侧会先卡在常开的热和电上——不是模型不够聪明是基础设施还在按旧节奏喘气挺浪费的。你那边训练峰值和Agent 常开哪个更让你头疼留言区投一票下篇写混部机房怎么分区。往期推理算力 122%06-25 · 2300W 热栈06-23 · SpaceX 散热06-18两个常见追问简答Q145℃ 温水会不会「不够冷」、芯片更热A冷板侧有自己的工质循环45℃ 指的是一次侧温水不是 die 表面温度。平台写 45℃是在高密常开下换PUE 和一次侧经济性——别用家用空调「越低越好」去套机房。Q2训练区和 Agent 区能不能共用一台 CDUA物理上可以逻辑上要分开想。共站可以但要分回路、分计量、分冗余否则训练区间歇时省下来的电会被 Agent 区常开吃掉账永远算不清。

AI 写芯片写了 18 小时：机房还在按「短跑」配散热吗？

相关新闻

基于51/STM32单片机智能浇花土壤湿度计控制系统自动灌溉大棚1(设计源文件+万字报告+讲解)（支持资料、图片参考_相关定制）_

C语言指针的理解 — 2

基于51/STM32单片机智能加湿器 DHT11 蓝牙无线WIFI 语音定时水位1(设计源文件+万字报告+讲解)（支持资料、图片参考_相关定制）_

AI赋能Nmap：构建智能安全扫描与自动化风险分析系统

AI 编程这事，已经开始变味了

TEA系列加密算法实战：从C到Python的跨平台轻量级实现

2026手机抠图软件合集：免费无水印App与轻量工具实操指南

长尾关键词在SEO优先策略中的有效应用与成效分析

Java 动态代理原理入门与面试

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

国产DSP FT-M6678 DDR3配置避坑指南：从PLL时钟到PHY寄存器，手把手调通你的第一块板

Coze与Dify对比指南：低代码AI应用开发从入门到实战

终端里的 AI 驾驶舱：Claude Code 斜杠命令深度解析

华为OD机试2025C卷-字符串变换最小次数[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

华为OD机试2025C卷-内存资源分配[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

国产DSP FT-M6678 DDR3配置避坑指南：从PLL时钟到PHY寄存器，手把手调通你的第一块板

Coze与Dify对比指南：低代码AI应用开发从入门到实战

相关新闻

基于51/STM32单片机智能浇花 土壤湿度计控制系统 自动灌溉 大棚1(设计源文件+万字报告+讲解)（支持资料、图片参考_相关定制）_

C语言 指针的理解 — 2

基于51/STM32单片机智能加湿器 DHT11 蓝牙无线WIFI 语音定时水位1(设计源文件+万字报告+讲解)（支持资料、图片参考_相关定制）_

AI赋能Nmap：构建智能安全扫描与自动化风险分析系统

AI 编程这事，已经开始变味了

TEA系列加密算法实战：从C到Python的跨平台轻量级实现

2026手机抠图软件合集：免费无水印App与轻量工具实操指南

长尾关键词在SEO优先策略中的有效应用与成效分析

Java 动态代理原理入门与面试

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

国产DSP FT-M6678 DDR3配置避坑指南：从PLL时钟到PHY寄存器，手把手调通你的第一块板

Coze与Dify对比指南：低代码AI应用开发从入门到实战

终端里的 AI 驾驶舱：Claude Code 斜杠命令深度解析

华为OD机试2025C卷-字符串变换最小次数[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

华为OD机试2025C卷-内存资源分配[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

国产DSP FT-M6678 DDR3配置避坑指南：从PLL时钟到PHY寄存器，手把手调通你的第一块板

Coze与Dify对比指南：低代码AI应用开发从入门到实战

基于51/STM32单片机智能浇花土壤湿度计控制系统自动灌溉大棚1(设计源文件+万字报告+讲解)（支持资料、图片参考_相关定制）_

C语言指针的理解 — 2