【互连网络架构演进】从蝶形到扁平蝶形:高基数网络的经济高效之路

发布时间:2026/6/18 7:54:42

【互连网络架构演进】从蝶形到扁平蝶形:高基数网络的经济高效之路 1. 传统蝶形网络的困境与突破第一次接触蝶形网络Butterfly Topology是在2013年设计数据中心交换机时。当时我们团队被一个棘手问题困扰如何在保持低延迟的同时支持超过1000个计算节点的互连传统树形结构在节点规模扩大时顶层交换机的端口压力呈指数级增长。这时导师扔给我一本泛黄的《互连网络原理》指着蝶形网络的章节说试试这个经典结构。蝶形网络本质上是一种多级交换网络采用k-ary n-fly的数学表达。举个具体例子2-ary 3-fly结构就像三层楼高的快递分拣中心第一层接收来自8个发货点2^38的包裹经过中间层的智能分拣最终准确送达对应收货点。这种结构的精妙之处在于对数级跳数任意两个节点间通信最多只需logk(N)1跳最小化直径网络中最远两点的通信距离达到理论下限硬件效率通过分级交换减少总连线数量但实际部署后我们很快发现了致命缺陷。某次内存数据库集群突发流量导致30%的查询延迟飙升到200ms以上。排查发现当多个节点同时向同一目标发送数据时蝶形网络缺乏路径多样性的特性会形成热点阻塞。就像早高峰所有车辆都被导航到同一条捷径反而造成更严重的拥堵。另一个工程难题是长线延迟。在28nm工艺下当全局连线超过5mm时信号传输延迟开始非线性增长。而传统蝶形网络必须跨越至少半个机器直径的长连线这在40节点以上的系统中变得难以接受。记得有次流片后测试时钟同步误差导致15%的数据包需要重传根源正是这些跨越芯片边缘的长导线。2. 扁平蝶形拓扑的进化之路2015年参与某AI芯片项目时我们尝试了革命性的扁平蝶形拓扑Flattened Butterfly。这种结构最直观的改变就像把多层立交桥压平成地面环岛将传统蝶形中同一行的中间交换机合并形成高基数路由器。以4-ary 2-fly网络为例// 传统蝶形网络节点连接示例 module butterfly_node ( input [3:0] left_in, output [3:0] right_out ); // 每级需要4x4交叉开关 endmodule // 扁平蝶形节点连接示例 module flattened_node ( input [11:0] dim_connections, // 123(k-1)*n output [3:0] local_ports ); // 单个高基数路由器替代多级交换 endmodule这种改造带来三个关键优势路径多样性提升源节点到目标节点平均可选路径从1条增加到(k-1)^n条局部性优化相邻节点通信不再绕行中心交换机延迟降低40%以上布线简化全局长线减少62%这在16nm以下工艺中尤为珍贵实测数据显示在ResNet50训练任务中采用扁平蝶形的芯片比传统网格结构快1.8倍能效比提升2.3倍。这主要得益于两个设计诀窍维度折叠技术将逻辑维度映射到物理平面时通过蛇形走线平衡线长异步信用控制针对长连线采用两级缓冲机制避免流水线气泡3. 高基数路由器的工程魔法实现扁平蝶形的核心在于高基数路由器设计。2018年我们开发的一款radix-64路由器芯片至今仍是业内标杆。这个巴掌大的芯片包含48个SerDes通道每通道28Gbps16个DDR4内存控制器可配置的虚拟通道仲裁器关键突破在于分级仲裁架构第一级采用Wavefront分配器处理80%的本地流量第二级使用iSLIP算法解决维度间竞争紧急流量通过Bypass通道直通这种设计使得64端口全双工交换的延迟控制在12ns以内。有个有趣的发现当路由器基数超过32时传统交叉开关的面积会爆炸式增长。我们最终采用Clos网络递归结构用多级小开关拼接大开关面积节省了58%。功耗优化方面通过动态通道关闭技术在负载低于30%时可关闭半数SerDes通道。实测在BERT模型推理任务中路由器功耗波动范围从原来的70-120W降至45-85W。4. 片上网络的实战技巧将扁平蝶形应用于片上网络NoC时需要特别注意物理布局与逻辑拓扑的协同优化。2020年设计AI加速器时我们总结出三条黄金法则维度映射规则X轴对应蝶形的第一级维度Y轴对应最后一级维度对角线走线用于中间维度流水线策略短于2mm的连线采用组合逻辑2-5mm连线插入1级寄存器超过5mm采用弹性缓冲器链流量整形技巧对RDMA类流量实施信用预分配突发流量启用动态虚拟通道周期性流量采用TTE调度有个实际案例在3D堆叠存储器接口中我们采用变种扁平蝶形结构将HBM2E的1024位总线分解为16个64位子通道。通过拓扑感知的地址哈希算法访存冲突率从12%降至1.7%。5. 未来架构的思考方向最近在研发下一代DPU时我们发现传统扁平蝶形面临新的挑战。当节点规模突破10^5时即使radix-256路由器也难以保持效率。目前正在探索的混合维度拓扑或许是个出路芯片内采用2D扁平蝶形芯片间通过3D Torus连接机架级使用光学蜻蜓网络这种分层结构在原型测试中展现出惊人潜力在1024芯片系统中Allreduce操作耗时仅为传统方案的29%。不过也带来了新的难题比如跨层级流量的拥塞传播问题我们正在试验梯度背压算法来解决。

相关新闻