
《AI系统原理与架构》ZOMIhttps://github.com/chenzomi12/AISystemhttps://github.com/chenzomi12/AIFoundation1PB 1024TB太字节1PB 1024 x 1024GB千兆字节1PB 1024 x 1024 x 1024MB兆字节1PB 1024 x 1024 x 1024 x 1024KB千字节1PB 1024 x 1024 x 1024 x 1024 x 1024B字节1GB 1024MB、1TB 1024GB、1PB 1024TBAI集群建设1存算网计算、存储、网络----- 看完 XCCL 看 数据并行张量并行模型并行----- 后面路由器、交换机 出来了的话也得重点关注----- 网络模型~---- 大模型业务全流程分布式并行是怎么去 切分到AI集群里面 每1U 每张卡 每张NPU 每个节点是怎么去分配模型的层数的已经深入到代码层面了这块还没看…!!!NVIDIA GPU架构发展chip、Superchip、Tray、DGX B200 NVL72、DGX SuperPOD、大规模集群解决方案【算力提升】纳米制造工艺、晶体管的堆多、硬件的架构、封装能力多Die合封、提升网络带宽、减少通信延时1现在训练一个大模型实际上的HFU 只能达到50%有大量的时间都是在做通讯、互传数据、等待和同步相关的问题2我需要聚焦的就是在提升网络带宽的解决方案3NPU卡间互联协议灵衢架构、AMDGoogle的UALink 与 XCCL的关系是啥---- 灵衢、UALink 应该是对标 NVLink 这样的架构是NPU卡间互联协议的重构与优化以提升 all2all 的通信效率---- XCCL是不同服务器之间的网络通信库带宽、网卡CPU、GPU、NPU 芯片基础华为 Ascend 产品NVLink的发展 结构NVLink 拓扑、DGX 硬件渲染图集合通讯概览1大模型对AI集群训练的诉求大带宽、强同步通信方式内存共享、PCIe、NVLink直连模式、TCP/IP、RDMA、点对点通信、集合通信XCCL、NCCL、HCCL通信库HPC超算、集群计算AI 系统学习路径rdma专栏linux专栏