
AI带动半导体产业CPO成关注焦点22年底ChatGPT横空出世以来AI已经带动了一个又一个的半导体超级产业机会、一个又一个的万亿美金市值公司。如果说在AI基建中还有一个板块尚待出现一个万亿市值“待爆帝”的话海豚君接下来最为看好的就是AI时代的超级连接了。算力解决了AI“智商”问题存力解决了AI“记忆力”问题那么运力要解决的就是如何将长、短期记忆“坐上火箭般的速度”高速出入脑力中心。借用AI教皇黄仁勋的说法随着算力、内存瓶颈的逐步缓解能源又是一个十年级的持续难度下一个核心卡点是AI时代网络的高速互联因为传统云时代的网络基建完全无法匹配Agentic AI时代下数万亿模型参数、混合专家MoE、局部激活下对网络带宽的传输需求。本篇接着AI网络传输速度下逐步切换的光电传输技术方向——CPO来探索一下AI时代的网络传输。海豚君对于CPO的研究分为一、什么是CPO它真的能替代传统的铜连接吗 二、它是否又能完全替代当前主流的可插拔光模块 三、在此趋势下产业内上下游公司的竞争格局又将如何变化CPO是什么与传统光模块有何差异在传统数据中心架构当中“光模块”将光线传输过来的光信号转化为电信号传递给数据中心或者将数据中心内产生的电信号转化为光信号并且传递给光纤在数据传输中起到“桥梁”和“翻译”的作用。从作用上讲CPO即共封装光学架构当中包含了传统光模块的功能但有以下两个明显差异1、结构不同传统的光模块是可插拔的表面看起来就像家里网线端口上的水晶头但CPO完全不同它将负责光电转换的光引擎和芯片这里主要是交换机的ASIC芯片直接集成在同一封装基板或者中介层上。2、应用场景不同光模块通常应用于机柜间即Scale-out而CPO既可以应用于机柜间也可以应用于机柜内Scale-up应用于机柜间替代的是传统的光模块应用于机柜内替代的则是目前主流的铜连接。近期无论是英伟达还是博通都在积极推动他们CPO交换机方案。那么CPO技术为什么会得到如此重视呢因为数据中心对算力需求持续提升数据中心对数据传输的带宽需求也呈爆发式增长且数据中心正在往超大规模算力集群的方向发展那么在此过程中旧有的传统数据传输技术会形成诸多阻碍1、带宽瓶颈对于机柜间场景由于传统交换机面板空间有限而传统可插拔光模块尺寸又难以缩小导致单台交换机能够提供的端口受限无法支持越来越高的带宽要求。目前可插拔模块最高可支持1.6Tbps单模块带宽单个交换机面板最多可支持51.2Tbps带宽未来有可能推出3.2Tbps模块交换机最高支持102.4Tbps这几乎已经达到可插拔光模块的极限。2、信号完整性瓶颈在机柜内场景随着传输速率提升如果使用传统的铜缆那么电信号在长距离传输时会面临严重信号衰减和失真并且传输距离也会越来越受限。目前铜缆最高可支持1.8TB/s带宽如英伟达的NVLink铜缆且距离被严格限制在2米以内但单GPU对带宽需求正在向3.6TB/s迈进。3、散热和功耗瓶颈随着传输速率提高传统通讯链路的功耗大幅上升同时散热也越来越面临困难。目前美国数据中心建设面临极大的能源障碍所以功耗问题会带来显著的成本压力。CPO理论上可以较好地解决上述几项问题根据英伟达应用CPO后功率效率可以提升3.5倍。数据中心的数据传输场景有哪些这里对数据中心在不同场景和不同环节中的数据传输技术路线进行拆分1、Scale-up主要涉及机柜内互联主要涉及机柜内尤其是服务器内的硬件互连包括但不限于CPU、GPU、网卡、DDR内存以及硬盘之间的互连。目前这部分连接主要以铜为主要连接介质包括用来连接CPU、GPU以及网卡的PCle插槽以及内存插槽PCB铜走线SATA线等各类铜缆等。而CPO有可能颠覆目前的主流方案。2、Scale-out主要涉及机柜间互联主要涉及机柜或者服务器以及交换机之间的互连。这部分连接就需要以光作为连接介质了目前主要以光纤和可插拔光模块为主要方案。同样CPO是重要发展趋势且比机柜内场景进展更快。3、更进一步地还有数据中心之间以及数据中心与外部的互连这部分不是本文的讨论重点。从巨头布局来看CPO现阶段在场景上主要面向机柜间但未来可能面向机柜内场景。CPO目前面临的主要瓶颈是什么1、先进封装技术的成熟从底层技术来看CPO与诸如可插拔光模块这类传统方案相比完全不同。传统光电子零部件从生产技术上与广义的光电子元器件及模组差异不大但CPO需要将光引擎封装到基板或中介层主要依靠的却是先进封装技术如CoWoS 。 与此同时相对于通常所理解的先进封装CPO也有所不同因为它不只要集成电子集成电路同时还要集成光子集成电路那么这种异质集成需要通过诸如台积电COUPE技术进行混合键合。问题在于一方面上述先进封装技术工艺难度极大无论是英伟达还是博通都依赖台积电产能但产能是有限的除此之外包括所需的光耦和设备、混合键合设备、测试设备以及ABF基板等材料的供应也可能存在障碍并且现阶段上述先进封装技术尤其是异质集成的生产良率还存在很大提升空间导致成本远高于可插拔方案。目前台积电正努力提升先进封装良率但仍需要一定的时间。2、检修和维护问题对于传统可插拔方案而言由于它们是“可插拔”的所以检修和维护很方便。但CPO完全不同它的光电模块与基板、中介层甚至芯片直接封装在一起那么检修和维护难度会显著大于传统方案。但以上问题也是可以解决的比如从设计上提高一定的容错率或者在运营层面布局一定的冗余等等。3、热管理问题光引擎与芯片进行高密度封装在运行时会导致局部升温明显甚至超过激光器的耐受极限所以热管理也是一个大问题。为了解决以上问题需要引入更高效的散热方案但这同样会涉及成本。4、标准化问题目前英伟达、博通等为了抢占市场先机积极推出自己完整的独立的CPO交换机方案。但与此同时行业标准接口标准、封装标准等还暂未形成如此一来上下游难以基于统一标准进行研发、生产和配置这也是商业化推广的难点所在。总之可以看到以上问题均存在解决方案只不过要依靠技术的成熟、标准的制定等但这都需要时间。 另一方面从根本上讲CPO技术在综合成本上需要形成优势。那么这就延伸出一个问题无论何种方案成本总是核心考量因素但除CPO外也有其他更先进或者更保守的路线在推进当中它们之间呈现怎样的关系呢这里先区分下不同技术路线的差异。不同技术路线比较1、CPO也就是共封装光学Co-Packaged Optics指的是将光引擎和芯片封装在同一基板上这里的芯片既可以是交换芯片Asic也可以是GPU等计算芯片但通常指的是交换芯片。2、NPO是近封装光学Near-Packaged Optics比CPO初级一点还没有打到封装在同一基板甚至中介层这样的尺度而只是封装在同一块PCB母板上。中国国内包括阿里、华为等都在推动NPO方案这更多可看作是缺乏先进封装产能下的一种妥协方案但可能在一段时间内成为中国市场的主流方案这一定程度上会影响到英伟达方案在中国市场的渗透。3、OIOOIOOptical I/O可看作是CPO的进阶这里就没有交换芯片的事情了主要跟计算芯片相关指的是将光引擎与计算芯片封装在一起甚至是直接在芯片层面上结合在一起这面向的完全是机柜内场景。谈到这里再来明确一下数据中心的架构数据中心可以看作是以下几个部分互相连接服务器专注于计算任务内部装载GPU、CPU等计算芯片内存、硬盘等交换机则负责服务器之间以及服务器向外部的网络通信通过ASIC芯片实现数据交换除此之外还有存储系统在目前主流数据中心架构当中存储器主要分散布置在服务器节点并放置于在服务器内部与服务器结合在一起。基于上述架构就能可以想象CPO的应用场景。那么在此基础上讨论下 为什么CPO率先从交换芯片开始这里对交换机的作用做个类比——交换机可以看作是数据中心内部的立交桥那么可以想象交换机所承担的数据传输带宽压力、端口密度以及与之相伴随的功耗瓶颈是最大的那么自然对CPO的需求更迫切。4、CPC是共封装铜互联Co-Packaged Copper指的是把高速铜连接器直接集成在封装基板上。这种技术路线的成本优势是非常明显的但仍然解决不了铜介质的带宽瓶颈和衰减问题所以应用场景比较受限可以部分应用在机柜内部的GPU/CPU节点与交换机及存储芯片之间的连接。目前英伟达机柜内方案仍采用铜连接但未来可能将向光互连切换。5、LPO是线性驱动可插拔光学Linear-Drive Pluggable Optics是一种瘦身版的可插拔光学通过去除内部的DSP/CDR芯片 仅保留并强化模拟芯片Driver和TIA实现信号直驱。说白了就是在光模块中直接踢掉功耗大的DSP芯片放弃信号纠错同时强化模拟芯片无论信号准确与否通过模拟放大直接让交换机ASIC的电信号来冲进来驱动激光器。但这里同样存在问题由于PCB走线并没有省略会造成信号衰减同时对信号质量要求又更高于是长距离传输还是受限并且当速率迈向更高维度1.6T以上时信号完整性问题会格外凸显。也就是说简化结构的同时性能上也会有所牺牲。综上可以看到尽管存在NPO、CPC、LPO等折中路线但随着数据中心迈向更高速率和更大集群这些折中方案总归会面临瓶颈CPO是未来必须要突破的下一代方案。6、光电路交换机OCS又是什么会威胁到CPO的地位吗谈到这里无可回避地会涉及到OCSOptical Circuit Switch。OCS这种交换机的核心特点是全过程没有光电交换通过光开关矩阵直接在光域内建立物理光路。可以直观地想象它就像是由一排排反射镜微镜阵列组成可以根据指令调整反射镜的角度向不同的角度反射光线。表面上看起来OCS是直接转发光信号替代传统交换机光-电和电-光转换过程似乎用这种技术路线就不需要CPO了至少不需要交换机环节的CPO。但实际并不是这样的。这里梳理下在数据中心当中交换机的架构是如何构建的1主板内首先知道数据中心内最核心的计算是通过GPU实现的GPU计算完毕后需要将数据传递给CPUCPU经过处理后再传递给网卡内含ASIC或者也可以由GPU直接传输给网卡。那么以上环节可以在一块主板上实现或者至少可以在一台服务器内实现。2机柜内之后数据就要从服务器传递到机柜的交换机上。一个机柜内可以有多台服务器高速互联但机柜顶上必须有一个交换机用来与外部通讯将机柜内的数据与外部的数据做交换。这里这个交换机叫做ToRTop of Rack交换机。 而以上环节是在同一机柜内实现的。3机柜间数据中心是由多个机柜组成的集群机柜和机柜间的通讯如何调度呢这里就需要Spine交换机发挥作用了。Spine交换机负责管理所有Leaf交换机之间以及向数据中心外部的高速连接它是数据中心内整个交换机网络的枢纽。而OCS主要用来替代的是Spine交换机。 首先Spine交换机价格高且功耗高替代方案的需求最迫切。 其次OCS作用是有限的它只能转发信号反射光线就像反光镜。但传统交换机功能更完整它需要拆数据包看IP地址然后决定往哪里转。所以说由于OCS只能执行指令没有判断能力那么在这种情况下它只被用来充当Spine交换机是可行的但要是想把Leaf交换机也替代了那就需要新增别的部件来执行“封包处理”功能比如智能网卡SmartNIC那么这个架构就复杂了它不一定是最好的方案。这么看下来架构就很清楚了 虽然现阶段英伟达推出的Quantum X800-Q3450、博通等推出的Tomahawk 6 - Davisson等CPO路线的交换机都是Spine交换机而Google推动OCS交换机替代的也是传统Spine交换机两者之间的确存在直接竞争关系。但终局来看虽然OCS有机会替代Spine交换机但再往下对于用量更大的Leaf交换机上光引擎与ASIC芯片之间的电光转换到服务器内主板与主板之间的连接通过网卡ASIC或NVSwitch等再到主板上计算芯片与计算芯片之间计算芯片与网卡ASIC之间的连接仍然需要使用CPO。所以未来两者更多是相辅相成的关系。CPO涉及到的产业链环节有哪些一首先解析下CPO的原理和架构CPO可看作是升级版的光引擎而光引擎的作用是进行光电转换它主要包括以下几个部分1、光子电路部分1调制器通过控制光的强弱和信号把电信号0/1数字写成光信号。 2探测器是PDPhotodiode光电二极管把光信号转换成电信号。3波导可以理解为芯片内部印上去的微型光纤。2、电子电路部分1Driver驱动器将交换机或者服务器传来的微弱电信号放大成能精确控制激光器发光的电信号所以Driver的下一个环节就是调制器。2TIA跨阻放大器将PD产生的极其微弱的电信号放大并转换成可供后续电路处理的电压信号所以TIA是PD的下一个环节。3、光源也就是激光器调制器自己是不能发光的但它能控制光所以这里就需要一个发光的部件与之配合也就是激光器。 另外还有两个部件4、DSP和CDR它们都是用来修复电信号的。一个用来补偿电信号的物理损伤一个用来从受损信号中提取精确时钟并重整数据时序其中DSP芯片通常集成CDR功能。CPO与LPO类似的一点是它们都将高功耗、高成本延迟源的DSP从光引擎中移除。但CPO方案下DSP部分功能集成到了交换ASIC中而LPO是用模拟芯片放大硬刚的方案另外CPO会将CDR集成到高速SerDes。而什么是 高速SerDes 呢高速SerDes包括Ser串行器和Des解串器它们位于Asic芯片内部分别用来将芯片内部并行数据打包成高速串行数据流或者将高速串行数据流解包还原成多路低速并行数据。二再看整个CPO产业链涉及到哪些环节1、首先是CPO整体CPO中的光引擎包含了上述提到的光子电路部分和电子电路部分然后光引擎与ASIC芯片构成CPO交换机主体部分。这里先说一个核心问题谁来做这个CPO传统的光模块作为由光学组件、分立器件等组成的独立模块可以由专业性生产厂商来完整提供比如中际旭创、新易盛、Coherent那么CPO呢显然不可能再由它们来主导了。倾向于认为CPO下的产业价值走向会是这样的1掌握核心技术的交换厂商和平台商掌握英伟达/Google/博通/Marvell这样的数据中心系统平台方交换芯片厂商来定义架构和标准卖整套产品2代工厂台积电/日月光/Amkor这些Fab厂/封测厂来进行晶圆制造/光电集成/先进封装代工3上游供应商Coherent/Lumentum这些器件厂继续进行光电器件的生产和供应。 4传统光模块厂商中际旭创/新易盛等过渡期内提供NPO、LPO等中间路线以及基于可维护性考量的折中CPO设计方案下继续提供光引擎模块 。2、除了CPO的核心光引擎之外还有几个组件需要关注1激光器CPO只能够集成光电转换部件直接集成激光器还存在难度因此仍然需要外置激光器。与此同时CPO对激光器的功率要求大幅增加至少增加3-4倍对应性能和可靠性要求也大幅提高因此价值量也会大幅增加。不过这里存在技术路线的选择1EML激光器传统路线它将激光器和调制器集成在一起优势是适合200G以上高带宽和长距离通讯。这个路线被Lumentum、II-VI(Coherent)、住友等巨头垄断。2CW激光器新兴路线它把激光器完全独立在成本和功耗上有优势也更匹配未来的CPO路线。CW激光器供应相对灵活中国的源杰科技、仕佳光子、长光华芯等厂商已实现70mW/100mW产品量产并获大额订单。接着是四大光纤组件这些组件在传统可插拔光模块路线下很少用到2光纤阵列单元FAUFiber Array Unit用来将光纤精确地安装以实现光纤与波导之间的高精度对准。3保偏光纤PMFPolarization Maintaining Fiber是一种特殊的光纤用来使得光波的偏振态保持不变。4光纤分配盒Fiber Shuffle用来排列光纤可以将复杂的高密度设备里的光纤的位置顺序重新排列。5光纤连接器MPOMulti-Fiber Push On用于多芯光纤之间的相互连接。为什么传统光模块很少用到上述组件1传统模式下光纤直接插入标准化接口但在CPO下光纤需要与光芯片表面的波导进行高精度耦合所以需要用到FAU2传统模式是直接调制对光波的偏振态不敏感且此前保偏光纤PMF成本又极高不太适合产业化应用但CPO通过外部激光器供给光源激光偏振态会导致巨大能量损耗所以必须用到PMF3传统模式通常只有1发1收两路光纤没有那么复杂的光纤需要连接到背板所以人工操作就可以不需要Fiber Shuffle但CPO下必须使用Fiber Shuffle4同样传统模块也不需要很多接口但CPO下如果达到400G以上需要8根甚至16跟光纤并行传输而面板空间又有限所以需要MPO这种多芯连接器。那么对于市场空间以及CPO所涉及到的产业环节投资机会会在下篇中进行分析。