CANN/hccl HCCL确定性计算配置

发布时间:2026/6/29 0:56:58

CANN/hccl HCCL确定性计算配置 HCCL_DETERMINISTIC【免费下载链接】hccl集合通信库Huawei Collective Communication Library简称HCCL是基于昇腾AI处理器的高性能集合通信库为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl功能描述此环境变量用于配置是否开启归约类通信算子的确定性计算或保序功能其中归约类通信算子包括AllReduce、ReduceScatter、ReduceScatterV、Reduce归约保序是指严格的确定性计算在确定性的基础上保证归约顺序一致。开启归约算子的确定性计算或保序功能后算子在相同的硬件和输入下多次执行将产生相同的输出。HCCL_DETERMINISTIC支持的取值如下false默认值关闭确定性计算。true开启归约类通信算子的确定性计算。针对Atlas A2 训练系列产品/Atlas A2 推理系列产品支持通信算子AllReduce、ReduceScatter、ReduceScatterV、Reduce。针对Atlas A3 训练系列产品/Atlas A3 推理系列产品若通信算子的展开模式为AI CPU所有归约类算子都为确定性计算且不受此环境变量影响若通信算子的展开模式为Vector Core仅通信算子AllReduce和ReduceScatter涉及非确定性计算配置为“true”后支持切换为确定性计算。strict开启归约类通信算子的严格确定性计算即保序功能在确定性的基础上保证所有bit位的归约顺序均一致配置为该参数时需满足以下条件仅支持多机对称分布场景不支持非对称分布即卡数非对称的场景。仅支持INF/NaN模式不支持饱和模式。相较于确定性计算开启保序功能后会产生一定的性能下降建议在推理场景下使用该功能。针对Atlas A2 训练系列产品/Atlas A2 推理系列产品支持通信算子AllReduce和ReduceScatter、ReduceScatterV。针对Atlas A3 训练系列产品/Atlas A3 推理系列产品支持通信算子AllReduce、ReduceScatter支持数据类型float16、float32、bfp16归约操作仅支持sum。通信规模要求rank size ≥ 3。若超节点内存在多个AI Server仅支持AI Server间使用HCCS链路进行SDMA通信的场景不支持使用RoCE进行RDMA通信的场景即不支持设置环境变量HCCL_INTER_HCCS_DISABLE为“TRUE”。一般情况下无需开启归约算子的确定性计算当模型多次执行结果不同或者精度调优时可通过此环境变量开启确定性计算进行辅助调试调优但开启后算子执行时间会变慢导致性能下降。若通过本环境变量开启了算子确定性计算同时又设置了算子的展开模式为“AIV”可参见HCCL_OP_EXPANSION_MODE则确定性计算的优先级更高某些场景下“AIV”展开可能不生效。配置示例export HCCL_DETERMINISTICtrue使用约束若您调用HCCL C接口初始化具有特定配置的通信域时通过“HcclCommConfig”的“hcclDeterministic”参数配置了确定性计算开关则以通信域粒度的配置优先。支持的型号Atlas A2 训练系列产品/Atlas A2 推理系列产品针对Atlas A2 训练系列产品/Atlas A2 推理系列产品仅支持Atlas 800T A2 训练服务器、Atlas 900 A2 PoD 集群基础单元、Atlas 200T A2 Box16 异构子框。Atlas A3 训练系列产品/Atlas A3 推理系列产品【免费下载链接】hccl集合通信库Huawei Collective Communication Library简称HCCL是基于昇腾AI处理器的高性能集合通信库为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关新闻