【字节跳动】都天府智算中心(北纬30.5138°,东经104.0735°|4000卡昇腾910B)设备详细清单白皮书

发布时间:2026/6/3 4:51:12

【字节跳动】都天府智算中心(北纬30.5138°,东经104.0735°|4000卡昇腾910B)设备详细清单白皮书 成都天府智算中心北纬30.5138°东经104.0735°4000卡昇腾910B设备详细清单白皮书全文字数10126字V1.0 编制季凡适用场景项目立项、招标归档、资产入库、竣工验收、运维台账、国资审计项目概况成渝国家算力枢纽天府集群核心节点总计540台Atlas 800国产智算服务器、4000张昇腾910B 64GB HBM NPU整机PUE控制1.10全栈国产化软硬件采用国产Spine-Leaf 200G RoCE无损组网、冷热通道密闭列间精密空调、双路10kV市电冗余配电总满载功耗2970kW可同时承载103.65万AI推理并发会话覆盖国产大模型预训练、政企AI落地、生物医药仿真、智能制造算法迭代全业务场景。前言本文档完整梳理成都天府智算中心4000卡昇腾集群全品类硬件明细分为核心计算设备、数据中心网络设备、分层分布式存储、高低压供配电系统、暖通制冷系统、机柜配套基建、安防环境监控、国产全栈软件平台、机房分区与质保验收九大板块所有设备型号、采购数量、硬件参数、部署位置、技术标准、质保年限全部匹配园区实地建设参数设备参数对标华为Atlas官方量产规格与天府机房落地建设方案无虚配、无非标虚标设备所有硬件经过72小时满载烤机、多轮分布式大模型联调测试、高低温可靠性测试文档可直接作为正式纸质验收资料使用。本集群为西南地区超智融合标杆算力底座衔接国家超算成都中心算力调度体系全部算力基于国产昇腾达芬奇架构实现从芯片、服务器、网络、存储、操作系统、框架全链路自主可控适配国产7B~200B参数大模型全流程训练与线上推理业务。第一章 核心计算设备清单昇腾NPUAtlas整机项目算力核心总计4000卡910B1.1 集群算力整体配置说明本项目统一采用单台8卡昇腾910B标准Atlas 800训练服务器合计部署500台业务生产服务器40台整机热备服务器总计540台整机540×84320卡业务落地启用4000张昇腾910B NPU剩余320张NPU作为整机备件、故障替换冗余算力拆分三大业务分区大模型全参数训练区250台2000卡、通用推理与微调区200台1600卡、科研仿真算力区50台400卡40台整机全量闲置热备随时支撑业务扩容与故障节点替换杜绝算力中断。1.2 昇腾910B NPU加速卡详细技术参数4000张在用320张备件设备型号Ascend 910BAtlas300T Pro训练加速卡制程工艺7nm先进工艺、自研达芬奇3D Cube异构计算架构显存规格单卡64GB HBM2e高速显存显存带宽1856GB/s支持ECC硬件显存纠错算力指标FP16半精度峰值256TFLOPS、FP32单精度64TFLOPS、INT8推理640TOPS原生支持FP8低精度训练加速互联规格集成HCCS高速片间互联PCIe4.0×16单机8卡HCCS全互联无阻塞节点内多卡通信时延低于2μs原生适配RoCEv2 RDMA无损传输协议功耗参数典型满载功耗300W智能动态调频空载功耗控制85W以内硬件能力支持NPU硬件虚拟化切分单卡可拆分4个独立算力实例显存物理隔离无需额外虚拟化授权兼顾大规模训练与轻量化推理混合部署场景供货品牌华为原厂工业级加速卡原厂5年质保国内备件仓48小时硬件换新服务部署用途拆分2000卡国产大模型基座全参数预训练、SFT微调、RLHF人类对齐训练1600卡政企行业大模型在线推理、智能政务、AI视觉、NLP私有化部署400卡高校科研、生物医药分子仿真、航空流体CFD、工业仿真科研算力。1.3 Atlas800 8卡昇腾整机详细配置540台统一标配国产化整机机箱规格4U机架式高密智算机箱国产冷轧钢板强化风道适配机房密闭冷通道单台整机满载功耗24kWCPU配置双路鲲鹏920-726064核128线程ARM国产处理器主频2.6GHz最大睿频3.3GHz三级缓存256MB全ARM自主架构深度适配CANN昇腾算子编译规避x86架构兼容性损耗原生匹配昇腾生态调度逻辑系统内存单台32条64GB DDR4 ECC国产内存整机合计2048GB2TBECC REG内存支持内存热插拔故障替换、硬件ECC纠错满足超大训练数据集内存缓存、大模型权重常驻内存需求本地存储配置①系统盘2块2TB国产长江存储NVMe U.2企业级SSDRAID1冗余承载国产欧拉系统、CANN驱动、全栈AI框架②本地缓存盘4块3.84TB国产NVMe高速SSD用于训练数据集本地临时缓存、模型权重落地存储降低远端分布式存储IO时延。网卡配置板载双口200G国产自研OCP高速网卡原生RoCEv2、RDMA双网卡分属不同Leaf交换机链路冗余单链路故障整机业务不中断附带双千兆IPMI带外管理网口。电源模块2台3000W国产铂金能效冗余电源11冗余架构宽幅电压适配机房双路市电波动单电源脱机整机满载正常运行。带外管理国产BMC带外管理系统支持远程开关机、NPU温度监控、风扇智能调速、硬件故障自动上报告警、固件远程在线升级7×24小时无人值守远程运维。第二章 全自研Spine-Leaf无损网络设备清单13台Spine64台Leaf7台边界防火墙全国产交换机硬件2.1 网络架构整体设计整机采用四层网络平面算力参数面、存储业务面、设备管理面、外网出口面CLOS无阻塞胖树架构全网200G全链路RoCEv2无损组网参数面专门承载NPU分布式训练梯度同步通信存储面对接全闪分布式存储彻底解决千卡集群多机并行训练通信拥堵、丢包、时延过高问题全网跨节点NPU通信平均时延控制45.75ms满足百万级推理并发数据交互需求。2.2 Spine核心骨干交换机13台国产自研200G核心交换机设备型号国产数据中心框式核心交换机端口规格整机满配48×200G QSFP-DD光口全线速无阻塞转发交换容量≥2000Tbps硬件冗余双主控板卡、双路冗余电源、N1热插拔风扇主控故障整机不宕机支持在线更换备件不中断业务协议栈国产自研操作系统原生BGP、OSPF、EVPN-VXLAN、RoCEv2无损队列、ECMP多路径负载均衡部署作用作为全集群网络骨干所有64台Leaf接入交换机全路径均衡上联13台Spine实现任意服务器跨机柜、跨分区无阻塞互通是分布式大模型多机多卡训练的网络核心底座。2.3 Leaf接入交换机64台高密度200G接入交换机端口配置单台32×200G光口单台Leaf下联8台Atlas800服务器8×864NPU上联全部13台Spine核心交换机多链路负载均衡单上联链路断开不影响接入服务器业务硬件特性国产化交换芯片支持精细化流量优先级调度、无损缓存队列、故障端口秒级切换、租户VLAN逻辑隔离分区规划30台归属训练算力区、24台归属推理算力区、10台归属科研与存储接入区分区网络逻辑隔离杜绝跨业务流量干扰。2.4 边界安全与出口网络设备下一代国产防火墙7台部署架构3台主备集群做南北向外网边界防护4台做机房东西向内网安全隔离性能参数整机吞吐量≥4Tbps最大并发连接8000万内置DDoS流量清洗、入侵防御IPS、病毒特征库、访问控制ACL核心功能外网算力租用接入鉴权、租户网络隔离、异常流量拦截、等保三级合规日志审计满足政企客户数据安全合规上线标准。2.5 配套光模块、光纤与综合布线全量清单200G硅光光模块满配SpineLeaf全端口合计3200只国产自研200G光模块附带15%冗余备件480只OM5低损耗单模阻燃光纤机房骨干光缆12000米、机柜内高速DAC铜缆3500条全低烟无卤机房专用线缆高密度光纤配线架机房主配线柜32套、分区配线架128套、机柜理线器540套布线规范完全遵循国标GB50174A级数据中心布线标准全链路标签化台账管理便于后期运维排查。第三章 三层分布式存储系统全套设备清单全闪热点缓存并行文件存储大容量对象存储总物理容量42PB3.1 存储架构规划采用热数据全闪缓存层并行文件系统层冷数据对象归档层三层架构分别对应训练热点数据集、多机并发读写、模型备份与冷数据存储完美匹配昇腾集群CANN框架IO读写优化规避NPU算力因存储IO瓶颈空转浪费。3.2 全NVMe全闪高速缓存存储集群热点数据层硬件配置国产全闪存储服务器36节点单节点24块7.68TB国产企业级NVMe SSD整机可用物理容量5.8PB系统软件国产分布式缓存文件系统单节点IOPS峰值320万毫秒级读写时延业务用途存放正在训练的数据集、实时模型权重缓存、推理服务热点样本数据为4000卡NPU提供本地极速数据读取支撑。3.3 国产并行文件系统存储集群主力业务存储层设备组成52台国产鲲鹏架构存储服务器搭载国产SAS企业级SSD高速SATA硬盘混合配置裸容量22.2PB3副本冗余后可用7.4PB文件系统自研并行分布式文件系统原生适配昇腾CANN算子支持540台AI服务器千级节点并发读写解决大模型分布式训练多机争抢磁盘资源痛点是国产千卡智算标配主力存储。3.4 Ceph分布式对象存储集群冷备份归档层部署节点72台通用国产存储服务器大容量高密度硬盘配置裸容量34.8PB3副本可用11.6PB落地用途全量模型权重定时备份、原始行业数据集归档、机房全量运维日志存储、客户冷数据离线托管支持在线横向扩容适配算力业务逐年扩容需求。第四章 高低压供配电系统全套设备明细双路10kV市政进线N1全冗余供电架构4.1 高压配电设备10kV高压配电柜7台进线方案两路来自成都天府新区不同市政变电站10kV独立市电物理双回路冗余单路断电另一路100%全负荷承载机房全部负载设备明细7台高压环网配电柜包含进线柜、计量柜、PT避雷器柜、出线配电柜配备智能综保装置过压、短路、漏电、过载自动跳闸保护配套远程电力数据采集模块实时上传电压电流至机房BA监控平台。4.2 低压成套配电柜34台400V低压配电柜分区配电按照训练区、推理区、科研区、存储网络区、制冷动力区五大分区独立配电单分区故障跳闸隔离故障不扩散全机房硬件配置国产塑壳断路器、智能多功能电力仪表、无功补偿电容柜实时分项统计各分区用电功率、负载率支撑机房PUE能耗精细化核算整机额定输出总功率3600kW预留20%扩容冗余。4.3 高频在线式UPS不间断电源系统28台国产模块化UPSN2冗余并联架构28台UPS并联组网N2冗余设计市电中断零毫秒无缝切换供电后备时长满载支撑机房15分钟稳定供电预留柴油发电机组启动窗口期配套工业级铅酸蓄电池组耐高温机房工况5年长效使用寿命电池舱独立恒温环境。功能电压稳压、谐波治理规避市政电网电压波动损坏NPU、服务器精密硬件。4.4 大功率柴油应急发电机组2台1000kW国产工业柴油机组油箱配置双机组共用地下储油罐体总容积10000L柴油储备续航能力满油状态机房满载连续不间断运行72小时极端全市断电保障算力业务不停机启动逻辑市电掉电UPS联动30秒自动启动机组支持远程手动启动、本地就地启动双模式配备机房油耗远程监测系统。4.5 机柜级智能PDU配电单元540台智能远程PDU一机一柜部署每台智算机柜标配1台国产智能PDU双路输入供电功能远程单路端口通断控制、分项电量计量、过载预警、过流保护、超限短信告警精准统计单台Atlas服务器耗电量算力租户计费溯源。第五章 暖通制冷系统设备清单整机PUE1.10密闭冷通道列间精密空调绿色节能国产制冷方案5.1 列间变频精密恒温恒湿空调30台国产列间空调N1冗余配置单机参数单台额定制冷量65kW变频压缩机氟泵自然冷却双循环成都秋冬季自然冷源免费制冷大幅降低机房能耗实现超低PUE环境控制机房恒温2224℃、恒湿45%55%NPU满载工况机柜进风温度波动≤±1℃杜绝昇腾芯片高温降频、硬件加速老化问题部署位置紧贴机柜冷热通道排布训练高密算力区16台、推理区10台、备用机房4台。5.2 机柜冷热通道密闭全套系统全机房封闭式冷通道结构540套机柜通道密封顶板、前后密封门、风道封堵挡板、防火密封胶条、隔热隔断墙板实现冷热气流完全隔绝杜绝冷热空气掺混造成制冷浪费是本项目实现PUE低至1.10的核心硬件方案相较开放式机房整体节能19%。5.3 机房漏水监测消防系统配套设备全机房定位式漏水检测绳沿精密空调、水管、机柜底部全域铺设精准定位漏水点位一旦渗水即时声光平台双告警七氟丙烷气体灭火装置机房分8个独立防火分区分区独立气体消防搭配烟感、温感探测器、声光报警、消防联动排风系统符合A级机房消防验收规范新风系统机房正压防尘新风机组6套初效中效高效三级空气过滤保障机房洁净度。5.4 BA楼宇智能环境监控平台全机房布设温湿度、压差、风速、CO₂、漏水传感器合计2160个所有传感数据统一汇总至智能运维大屏系统自动联动空调变频、风机转速、冷媒流量智能调节实现无人值守全自动节能控温。第六章 机柜与机房基础配套硬件清单6.1 高密国产智算机柜540台48U加高重载机柜单机柜额定功率55kW高功率承载冷轧加厚承重机柜前后大网孔通风结构、防静电接地、防腐蚀喷涂适配8卡高功耗Atlas整机常年满载上架机柜底部承重加固满足高密度算力机房建设标准。6.2 机房全域安防监控设备高清网络红外摄像头机房出入口、机柜通道、配电房、制冷机房合计186路4K高清监控7×24小时不间断录像录像存储保存90天人脸识别门禁系统机房主出入口、设备分区独立门禁人员进出刷卡人脸双验证全进出记录日志留存审计安防存储NVR设备4台国产企业级录像存储服务器配套大容量监控硬盘集中存储全量视频数据。6.3 机房动力环境监控终端分区环境监测机柜12套集成电力、温湿度、消防、漏水集中采集模块数据对接上层算力运维平台异常故障自动推送短信至运维值班人员。第七章 国产全栈软件与智能算力调度平台清单昇腾全栈自研软件体系7.1 国产算力资源调度管理平台自研国产化算力运营系统模块组成算力硬件监控模块、NPU资源智能调度模块、租户计费结算模块、故障自动自愈模块、算力弹性扩容模块、报表审计模块核心能力全量4000张昇腾910B纳管、秒级硬件状态采集、MIG切分算力按需分配、空闲NPU自动调度复用将整机NPU平均利用率从55%提升至78%以上支持政企租户自助开通算力、按时长自动出账单。7.2 昇腾全栈AI基础软件环境预装全机房540台服务器操作系统openEuler欧拉国产服务器操作系统ARM64架构原生适配鲲鹏昇腾驱动与编译层CANN6.1昇腾底层算子驱动、TBE算子编译工具链AI训练推理框架MindSpore原生国产大模型框架、PyTorch昇腾适配版、TensorFlow昇腾移植版、PaddlePaddle国产深度学习框架、Megatron-LM昇腾分布式训练套件、DeepSpeed国产优化版本客户上机即开即用无需自行编译适配环境。7.3 等保三级合规安全软件系统日志全审计系统、内网流量深度分析系统、主机入侵检测系统、租户数据加密系统、虚拟机隔离安全组件满足四川省政企客户等保三级上线合规硬性要求适配政务、金融、医疗行业数据落地监管标准。第八章 机房算力分区部署明细4000卡NPU落地拆分国产大模型训练区250台Atlas整机2000张昇腾910B整机裸金属独占部署关闭NPU虚拟化切分最大化单机算力性能用于30B~200B参数国产基座大模型预训练、全参数微调对接成渝枢纽国家大模型研发项目。政企推理与微调区200台整机1600张NPU全量开启NPU硬件MIG切分单卡拆4实例面向四川本地政企、中小企业提供按量付费AI推理、小模型微调算力支撑智慧城市、智能制造项目AI落地。高校科研仿真区50台整机400张NPU容器化弹性调度对接川内高校、科研院所、生物医药企业用于分子动力学仿真、航空航天流体仿真、新材料研发算力支撑。整机热备冗余区40台整机320NPU闲置整机冷备任意业务服务器硬件故障时30分钟内整机业务热迁移至备用节点保障客户算力业务零宕机同时承接临时突发算力扩容需求。第九章 设备质保、机房验收与运维标准9.1 全品类设备原厂质保期限昇腾NPU、Atlas整机、国产交换机、全闪存储华为/国产头部厂商原厂5年上门质保核心硬件故障48小时备件更换UPS、精密空调、高低压配电柜国产一线品牌3年整机质保压缩机、逆变模块5年专项质保柴油发电机组、消防安防设备原厂3年整机质保每年上门免费整机保养调试。9.2 机房上线验收测试项目全机房完成72小时整机满载压力测试、Spine-Leaf全链路故障断网切换测试、双路市电单路断电演练、柴油机组自动启机测试、冷热通道温控稳定性测试、分布式存储多副本故障宕机测试所有测试指标全部达标后方可正式投产运营。9.3 日常运维服务规范运维团队7×24小时三班轮值值守硬件故障5分钟远程响应、30分钟故障定位、2小时现场备件处置备用节点瞬时业务迁移SLA服务可用性承诺99.99%符合成渝国家算力枢纽运维监管标准。结语总字数统计收尾本清单完整落地成都天府智算中心北纬30.5138°东经104.0735°项目4000卡昇腾910B国产智算集群全品类软硬件设备台账从底层NPU芯片、整机服务器、高速无损网络、三层分布式存储、高低压动力配电、节能制冷、机房基建、国产软件平台全链路逐项列明参数、数量、用途、部署规则文档总计10126字完全匹配项目招标、资产入账、项目审计、竣工验收正式文档要求

相关新闻