AI系统互连技术选型：协议纷繁背后的取舍与困局-尧图网站设计

随着芯片复杂度持续攀升、封装方式不断增多系统设计师在连接各组件时面临的选择也前所未有地丰富。然而选择越多混乱往往也随之而来。高效的数据流是现代系统的命脉在AI系统中尤为关键——处理器与存储器之间需要传输海量数据必须以足够高的带宽和极低的延迟持续供给否则将引发内存瓶颈、热点聚集乃至信号衰减等问题。工程师需要在接口协议与标准、物理输入输出缓冲区、片上与片外互连布线等多个维度综合权衡。Vinci半导体与电子业务市场拓展负责人Satish Radhakrishnan指出更宏观的趋势是不同的协议被应用于不同的物理距离层级从芯粒与封装级连接到机架级系统都有对应的协议在发挥作用。这使得互连的选择不再只是单纯的协议决策而更像是一项系统级的实施决策。当前业界主要涉及的互连接口领域与标准包括片上或SoC总线如AMBA AXI或CHI涵盖相干与非相干片上网络NoC主机到设备的PCIe封装内芯粒间互连如UCIe、BoW、OpenHBI、OIF XSR、CHI C2C、NVLink-C2C等机架或机柜内扩展互连如英伟达NVLink、UALink、Infinity Fabric跨机架互连如超以太网UE/UET、InfiniBand、RoCE内存池化或相干挂载CXL封装内存JEDEC HBM3e或HBM4封装技术硅中介层、台积电CoWoS、英特尔EMIB或EMIB-T三维堆叠英特尔Foveros、台积电SoIC以及新兴光互连CPO共封装光学、光学I/O。值得注意的是I/O与互连这两个术语虽常被混用但实际含义有所不同。Synopsys接口IP产品管理总监Priyank Shukla解释道互连是在物理层连接芯片的通道PCIe或UALink都属于互连技术。而当人们说到I/O时通常的理解是低速、通用的接口关注的是物理输入输出本身而非控制器等其他环节。I/O芯粒则负责将数据从核心芯片传入或传出。面对如此繁多的互连选项设计师往往无从下手。Cadence芯粒与IP解决方案高级产品营销总监Mick Posner表示作为IP提供商我们不得不花大量时间解释每种协议的适用场景。客户经常问我该选哪个而我们只能反问请告诉我你想实现什么因为它们之间确实存在一定的重叠。然而每种互连都有其特定的用途没有哪一种能包打天下。Posner进一步指出为什么要为了支持一个不能凸显差异化的通用接口而牺牲性能、功耗、面积和延迟厂商们并不希望采用通用接口。行业正逐步走向一种分层架构而非赢家通吃。Cadence硅解决方案集团产品管理与营销副总裁Arif Khan表示你可以标准化构建模块同时在封装内通信、机架内扩展和机架级互连上采用不同的架构因为每个层级的约束条件本就不同。对设计师而言结果是选择更多但角色也更清晰——一类链路负责广泛兼容一类处理内存语义与资源池化另一类则服务于超低延迟的扩展域。最终胜出的系统必然是能将这些融合得恰到好处的那些。选项增多挑战也随之而来。Axiomise首席执行官Ashish Darbari表示协议的泛滥本身就是问题所在。五年前你选定一种互连、确定一种封装然后开始工作。但最近我和一位架构师交流得知如今的工程师在同一个设计中同时评估用于计算到内存链路的UCIe 2.0、用于成本敏感型I/O的BoW、用于高带宽桥接的EMIB-T、主机侧的CHI以及用于流式加速器的非相干NoC这已经很常见了。每种选择都有其理由但挑战在于没有一个实体能掌控所有环节你集成的不是一个协议而是一整套协议栈。由此带来的后果是Bug往往藏在这套协议栈的缝隙之间而不一定出现在某个具体的协议内部。Baya Systems首席解决方案架构师Saurabh Gayen指出大量互连创新都在追求针对单一AI工作负载的极致性能。我们看到网络在演进所有这些技术——I/O、链路、连接协议——都在随之演化。这一切变化非常快大量新技术不断涌现争夺主导地位。选择合适的接口不仅取决于工程师的熟悉程度也与产品定义密切相关。Gayen说甚至会出现两边押注的情况。客户会说我们需要一个能同时支持两者的方案因为我们不知道最终谁会赢。你必须现在就做出判断而你的产品要到一年后才会上市。如果你押错了就全盘皆输。这其中有大量自下而上的技术评估但这并不是唯一的考量因素。我们也见过技术上并非最优的方案最终胜出因为它拥有强大的势头整个生态系统都围绕它聚拢。客户的决策正是这种自上而下与自下而上的综合考量。Rambus硅IP产品管理高级总监Lou Ternullo一针见血地指出真正的挑战在于这些用例的重叠程度恰好足以制造困惑而实施成本却完全不同。如果设计需要广泛的兼容性和可预测的调试过程PCIe依然是默认选择。如果瓶颈在于内存容量和利用率CXL就很有吸引力因为它改变的是架构的能力而不只是数据传输速度。如果系统是一个追求极致带宽和超低延迟的紧耦合加速器集群专用的扩展互连便能发挥价值。大多数现代系统最终都会混合使用这些方案因为没有哪一种链路能满足所有需求。在这个竞争激烈的领域并非所有标准都能平分秋色。ChipAgents首席执行官William Wang表示UCIe、HBI和高速SerDes架构因芯片分解经济学的驱动而日益流行而专有的芯粒间接口则随着标准化生态互操作性的加速推进而逐渐式微。Arteris产品管理与营销副总裁Andy Nightingale同样认为定制化、一次性的专有芯粒间接口正在失去青睐因为它们难以跨厂商或产品世代进行组合。每一条自定义链路都是对验证、调试和供应链灵活性永久性的额外负担。Keysight EDA高速数字设计领域负责人Hee Soo Lee指出整体趋势是通过芯粒间、2.5D中介层或3D芯片堆叠实现短距高带宽互连。它们能在更高速率下提供极宽的总线位宽。芯粒与3D领域的UCIe当前市场由芯粒和多芯片架构主导为设计师提供了更低功耗和更高带宽密度的方案。芯粒是专为单一功能设计的电气芯片。在新兴互连中业界正通过UCIe或BoW等标准化芯粒接口努力减少厂商锁定。Arteris的Nightingale表示标准化的芯粒间和以存储为核心的互连方案正在胜出因为它们降低了生态系统摩擦和验证负担。UCIe明确面向多厂商芯粒互操作性提供了完整的协议栈定义和合规测试这种无聊的标准化恰恰是工程师内心深处最渴望的东西。然而UCIe在芯粒领域的主导地位尚未达到PCIe在板级互连领域的高度。Cadence的Posner说基于芯粒的设计从根本上来说应该和芯片间互连一样只是现在变成了芯粒间。那么为什么把这些芯粒封装在同一个区域内反而比芯片间互连更复杂归根结底还是芯粒间接口的问题。芯片到芯片之间PCIe这样的协议非常合适因为双方都理解这套专用协议。而我们现在处于一个过渡阶段多芯片设计爆发式增长但芯粒间还没有像PCIe那样的通用标准。UCIe虽然尝试提供这样一个网关和通用标准但在数据中心这样的应用场景中究竟是CPU对CPU、GPU对CPU还是GPU对CPU对内存的连接依然需要明确界定。尽管复杂性犹存芯粒已是大势所趋。Keysight的Lee表示芯粒的一大优势是可以灵活搭配。你不必从集成IDM厂商那里获取所有组件而是可以直接采用现成的芯粒模块将其插入系统并让整个系统正常工作。这大大加速了生态系统的采用。PCIe与CXLRambus的Ternullo指出许多AI应用利用传统的CXL PCIe链路实现解耦计算使系统能够在多个计算节点之间动态共享内存、存储和加速器资源。PCIe的应用范围远不止于AI。Baya Systems首席解决方案架构师Kent Orthner表示PCIe和以太网在主流数据中心、企业IT和个人计算等场景中仍然占据主导地位并且随着这些外部协议的升级而持续提速。近年来内存速度也随HBM封装内存解决方案的普及而大幅提升进一步推动了对外部内存的超高速低延迟访问。CXL则始终服务于特定使用场景。Cadence的Posner说CXL是为CPU到内存的连接而设计的它实现了内存共享与内存池化这是其他任何协议都无法做到的。Arteris的Nightingale也持相同观点CXL正在将越来越多的内存和加速器接入场景引向相干架构与共享内存池模型——当AI工作负载被数据搬运和内存带宽主导而非纯算力时这一点尤为实用。AI数据中心与HPC的竞速在机架内GPU高速扩展领域NVLink和UALink是以太网的主要竞争者。Vinci的Radhakrishnan表示随着每块GPU或加速器内部的计算量和内存容量不断增加GPU间需要传输的数据量也持续攀升NVLink和UALink因此获得了更多关注。NVLink是英伟达GPU系统的核心协议而UALink作为加速器间通信的开放标准正受到越来越多的重视。在光子学CPO技术成熟之前这两种协议是AI芯片厂商实现多GPU并行连接和高效数据传输的主要依赖。即便如此工程师在具体选择时仍常感困惑。Cadence的Posner说我们经常被问到应该用NVLink Fusion还是UALink。NVLink Fusion是英伟达NVLink的公开版本延伸出来是为了吸引更多人接入其生态主要面向CPU到GPU的连接。UALink则由AMD主导基于其Infinity Fabric面向GPU到CPU及GPU间的连接但局限于其自身生态同样是公开标准。PCIe曾是CPU到加速器接口的首选但如今面临来自NVLink Fusion和UALink的竞争。Posner指出它们服务于相同的用途但后两者可能具备更好的技术指标也更贴合该场景的需求。不过PCIe永远不会消亡英特尔在其自身架构中依然使用它。我们只能接受芯片内外共存多种协议这一现实。Baya的Gayen同样认为多标准并存将是常态。业界存在一个有趣的张力超大规模云厂商对以太网技术更加熟悉和信任因此超以太网和开放计算项目的ESUN倡议应运而生。他们的态度是我们对以太网很满意稍作调整就能继续沿用而且大家都知道底层基础设施是熟悉的那套。UALink则是从头为AI需求构建的但以太网一次又一次地证明了它能演进以满足新需求。历史告诉我们最终赢家难以预判。在规模扩展和跨机架互联场景中协议的部署挑战不容忽视。Cadence的Khan表示系统之间需要相互通信这就要求足够多的系统采用相同的协议。此外要让扩展协议真正发挥作用还需要相应的交换机基础设施那么谁来为哪个协议开发交换机这就导致了碎片化。在某些情况下SoC设计师不得不在芯片上集成多种解决方案因为他们不知道产品实际部署时市场生态会是什么面貌。基于ESUN的交换机已经可以复用现有以太网交换机基础设施只需对协议进行小幅更新。而如果你为全新协议构建交换机工作量则大得多。这其中涉及技术演进是革命性还是渐进性的经济学考量。新协议同时带来系统层面和软件编程层面的挑战新软件能否充分发挥新协议所承诺的优势始终是一大难题。Khan说道。光互连、CPO与高速SerDes的未来业界预计未来约五年内AI数据中心的互连将大量转向光学方案。TrendForce预测全球光收发器出货量将从2023年的2650万件增至2026年的逾9200万件实现约三倍增长。Keysight的Lee表示我们听到越来越多关于光互连的讨论尤其是向CPO共封装光学的迁移。这是将电气互连转变为光学互连以克服功耗问题的关键路径。AI芯片系统需要大量ASIC系统配置的功耗极高这是AI数据中心面临的主要挑战之一。采用CPO或硅光子技术能有效降低功耗同时由于不使用铜缆信号损耗大幅降低系统效率显著提升热限制问题也得以缓解。光学技术正逐步获得认可因为电气链路在芯片边缘有限的面积内面临带宽交付的根本性瓶颈。然而目前光学方案仍属于小众选项而非主流基础设施。Arteris的Nightingale表示随着封装对带宽的渴求和功耗限制的加剧光学I/O正从研究热点悄然向选择性部署迈进。没有明确赢家的结论每种互连协议都有其优势与局限对于特定应用而言并不存在简单的最优答案。Cadence的Khan指出标准化如果能适用于所有人当然很好但标准化面临的问题是大量遗留基础设施的存在。在数据中心里如果有人提出一个新标准——比如UALink——要成功部署就必须引入全套UALink交换机等基础设施这是一笔巨大的投入。CXL的案例已经说明了这一点CXL采用缓慢的根本原因就在于实际部署所需的基础设施尚未就位。于是设计师会问我能否通过现有方案以一定的性能或延迟代价实现同样的目标Keysight的Lee则将当前互连领域的纷繁局面类比于十多年前电迁移仿真领域的格局当时有FEM、FDTD、MoM等众多不同技术所有人都在问为什么不能有一种算法解决所有问题。它们本质上都是在求解麦克斯韦方程但每种方法各有优劣有的擅长窄带问题有的擅长宽带问题。我认为互连领域同样如此不会出现一种标准统治所有接口类型的局面。当然也有一些方向已明显落后。Lee表示在内存系统中成对的单端总线对噪声极为敏感同时存在严重的时序相关问题调试难度极高。此外关于长距离铜缆互连的讨论也越来越少因为其成本高昂且损耗较大。QAQ1UCIe和PCIe在芯粒互连中的区别是什么APCIe是成熟的芯片间互连标准广泛用于主板级组件连接UCIe则专为封装内芯粒间互连设计旨在实现多厂商芯粒的互操作性。目前UCIe尚未达到PCIe在板级互连中的主导地位因为多芯片设计虽爆发式增长但标准生态尚在形成阶段。两者解决的是不同物理层级的连接问题并不能简单替代。Q2CXL和PCIe有什么不同分别适用于什么场景APCIe是通用的主机到设备互连协议适用于主流数据中心、企业IT和个人计算CXL则专为CPU到内存的连接而设计核心能力是实现内存共享与内存池化这是其他协议无法替代的。许多AI应用会同时使用两者通过CXL PCIe链路实现解耦计算在多个计算节点间动态共享内存与加速器资源。Q3NVLink和UALink谁会成为AI数据中心互连的主流A目前两者各有阵营难分伯仲。NVLink是英伟达GPU系统的核心协议NVLink Fusion面向CPU到GPU的连接UALink由AMD主导面向GPU间及GPU到CPU的开放互连。与此同时超以太网和ESUN等基于以太网的方案因拥有成熟的基础设施和庞大的生态基础同样具有强大的竞争力。历史上技术上更优的方案未必最终胜出生态系统的聚合效应往往更具决定性。

AI系统互连技术选型：协议纷繁背后的取舍与困局

相关新闻

猫抓浏览器扩展完全指南：5步掌握网页视频资源嗅探与下载

汽车电子工程师必看：ISO 16750-2023全套标准解读与实战应用指南

Vivado时序约束实战：用Set_Case_Analysis给FPGA设计‘瘦身’，提升分析效率

NCMDump：免费解锁网易云音乐NCM格式的完整指南

[具身智能-789]：NAV2 全局规划层内部工作原理（通俗完整版）

Equalizer APO终极指南：免费打造Windows专业级音频系统

别再手动接线了！用LabVIEW Modbus库，5分钟搞定串口设备数据采集（附避坑指南）

IDA逆向分析实战：破解函数限制、修复栈平衡与Switch识别

不花一分钱，每月省出28小时，2026实测高性价比一键视频总结不点开亏大了

新闻编辑部正在悄悄部署NotebookLM，你还在用传统剪报法？

XUnity Auto Translator：Unity游戏多语言本地化的终极解决方案

Go语言轻量级分布式任务调度框架Roll：从架构到生产部署实战

2026年十大最佳地区搜索排名优化工具：权威榜单赋能企业高效增长

DDR3内存Row Hammer问题解析与防护方案

为ItsyBitsy ESP32设计3D打印外壳：从原型到产品的完整实践

别再手动点关了！用PowerShell永久关闭Windows Defender的保姆级教程（含Server 2016/2019）

别再只换芯片了！BP2832A替换CL1502，你的电感参数算对了吗？

全平台智能资源下载工具：res-downloader 完整使用教程