AI 超节点服务器开始疯狂爆发,128卡正在成为新标杆?从阿里云磐久到新华三 UniPoD,看懂 AI 数据中心为什么正在“巨型化”

发布时间:2026/5/28 6:53:14

AI 超节点服务器开始疯狂爆发,128卡正在成为新标杆?从阿里云磐久到新华三 UniPoD,看懂 AI 数据中心为什么正在“巨型化” 前言如果你这两年一直在关注 AI、大模型、GPU 服务器、数据中心、云计算这些行业你一定会发现一个非常明显的变化整个 AI 基础设施行业正在进入一种前所未有的“堆算力时代”。尤其从 2024 下半年开始到现在 2026 年全球云厂商、服务器厂商、IDC 厂商、GPU 集群厂商几乎全部都在疯狂往一个方向卷——超节点Super Node。很多以前只存在于顶级 AI 实验室里的东西现在已经开始慢慢变成行业新标准。尤其最近阿里云和新华三接连发布的新一代 AI 超节点服务器更是直接把整个行业推向了“128卡时代”。很多新人第一次看到“128卡超节点”这种东西的时候第一反应通常都是“不就是 GPU 更多吗”但真正做过 AI 训练、分布式推理、大模型集群的人都知道AI 超节点真正可怕的地方从来都不是“卡多”而是“高密度 超高速互联 Scale-up 架构”。尤其最近阿里云发布的磐久 AL128 超节点服务器直接把行业关注度拉满。因为它不仅仅是单机柜 128 卡更关键的是它开始强调“单节点运行万亿参数模型”。这个事情其实意义非常大因为它意味着整个 AI 基础设施逻辑正在发生变化。以前很多 AI 训练集群本质上还是“多服务器拼接”。例如8卡服务器16卡服务器多节点 RDMAInfiniBand 网络通过横向扩展Scale-out来做大模型训练。但问题是当模型越来越大之后传统 Scale-out 开始出现越来越严重的问题卡间通信瓶颈网络延迟同步开销带宽不够GPU 利用率下降真正做过大模型训练的人都知道现在 AI 行业最大的问题其实早就不是“有没有 GPU”。而是“GPU 之间怎么通信”。而超节点本质上其实就是整个行业开始从“分散式 GPU 集群”转向“超高密度统一 GPU 池”。这也是为什么最近阿里云。新华三。NVIDIA。超聚变。浪潮。华为。全部都在疯狂推进超节点。因为未来 AI 拼的已经不只是GPU 数量。而是“GPU 互联效率”。一、为什么 AI 行业突然开始疯狂卷“超节点”很多新人第一次接触 AI 集群的时候会觉得“GPU 越多越强”。但真正做过 AI 训练的人都知道这句话其实只对了一半。因为 GPU 多不代表效率高。真正影响 AI 训练速度的其实是通信。尤其大模型时代之后这个问题越来越严重。例如GPT。多模态模型。视频模型。Agent 模型。这些东西参数规模越来越恐怖。从几十亿参数。到千亿。再到万亿。这意味着什么意味着GPU 之间需要疯狂同步数据。而传统服务器架构很容易出现“GPU 等 GPU”。真正做过 CUDA、NCCL、分布式训练的人都知道现在很多时候 GPU 利用率上不去并不是算力不够而是互联带宽不够。下面这个表其实就能直观看懂传统 AI 集群的问题问题传统集群表现GPU通信延迟高网络同步开销大Scale-out越大越难调度GPU利用率容易下降训练效率后期衰减明显功耗急剧增加所以现在整个行业开始越来越强调Scale-up。什么意思简单来说不是继续疯狂加服务器。而是把更多 GPU 放进“一个超节点”。二、阿里云磐久 AL128 为什么会引发行业震动这个其实是最近国内 AI 基础设施行业最大的热点之一。因为阿里云这次发布的磐久 AL128 超节点。核心意义其实并不只是“128 卡”。真正重要的是“单节点”。很多新人第一次看这个新闻可能只会觉得GPU 更多了。但真正懂 AI 基础设施的人都知道单节点支持 128 卡意味着整个 GPU 池开始真正高度融合。而且阿里云这次还搭载了真武 M890。也就是阿里自研训推一体 AI 芯片。这个事情其实非常关键。因为现在全球 AI 行业有个特别明显的问题太依赖 NVIDIA。无论训练。推理。CUDA。GPU生态。几乎全都绕不开 NVIDIA。所以现在全球云厂商都在想办法做自己的 AI 芯片。例如AWS TrainiumGoogle TPU华为昇腾阿里真武本质上其实都是同一个逻辑“降低 AI 基础设施依赖”。而阿里云 AL128 最大亮点之一就是超高密度 GPU 互联。真正做过 AI 集群的人都知道现在 AI 行业真正值钱的已经不是“单卡性能”。而是“卡间带宽”。三、新华三 UniPoD S80000 为什么开始强调“16384卡扩展”这个其实特别有意思。因为新华三这次发布的 UniPoD S80000本质上已经不只是服务器了而是在往“AI 超算底座”方向走。尤其16384 卡扩展。这个数字其实非常恐怖。真正做过 AI 集群的人都知道当 GPU 数量超过一定规模之后最大问题已经不再是算力。而是调度。因为网络拓扑RDMAIB交换机GPU同步显存通信这些东西复杂度会指数级上升。所以现在很多 AI 超节点其实已经越来越像“超级计算机”。下面这个表其实能直观看懂 AI 超节点演进方向阶段特点单机8卡传统AI服务器单机16卡高密度GPU单机32卡超融合开始单机128卡超节点时代万卡集群AI超算中心真正做过 AI Infra 的人都知道未来 AI 数据中心一定会越来越“超算化”。四、为什么行业突然开始强调“Scale-up”这个其实是 AI 基础设施最近最大的变化之一。以前整个互联网行业特别喜欢Scale-out。也就是横向扩容。服务器不够继续加机器。但 AI 不一样。因为 AI 特别依赖低延迟互联。尤其Transformer。MoE。超大模型。这些东西会导致 GPU 之间通信量极其夸张。所以现在越来越多人开始意识到继续横向扩容并不是最优解。于是整个行业开始转向Scale-up。也就是“单节点尽可能大”。因为这样能显著提升GPU带宽通信效率推理性能训练速度真正做过大模型的人都知道未来 AI 集群真正拼的已经不是“有多少 GPU”。而是“GPU 之间跑得有多快”。五、为什么 AI 数据中心开始越来越像“液冷超算”很多人现在只关注 GPU但实际上 AI 行业最近还有个特别大的变化散热革命。因为现在 GPU 功耗已经越来越离谱。例如H100B200AI ASIC很多单卡功耗都非常夸张。而超节点又会把大量 GPU 高密度堆叠。这意味着传统风冷已经越来越顶不住。所以最近越来越多 AI 数据中心开始全面推进液冷。尤其冷板液冷。浸没液冷。这些技术。新华三这次甚至提到PUE 可控制在 1.04 以下。真正做过 IDC 的人都知道PUE 越低。意味着能源效率越高。而未来 AI 数据中心最大成本之一其实就是电费。所以未来 AI 数据中心一定会越来越液冷化。六、为什么未来 AI 服务器会越来越“超节点化”这个其实已经是行业共识了。因为 AI 模型还会继续膨胀。尤其多模态视频生成Agent世界模型AI搜索这些方向。都会继续推动模型规模增长。而模型越大。GPU 通信压力越大。所以未来 AI 基础设施一定会继续往超节点高速互联GPU池化Scale-up液冷AI超算中心这些方向发展。真正做过 AI 的人都知道未来 AI 行业真正值钱的已经不仅仅是GPU。而是“整个 AI 基础设施体系”。

相关新闻