
名称全称进程 / GPU 架构模型存储方式数据与计算方式梯度 参数更新方式DPDataParallel单进程控制多 GPU仅主 GPU存储完整模型数据分片多卡只做前向计算结果回传主 GPU主 GPU 统一计算梯度、更新参数DDPDistributedDataParallel多进程一卡对应一进程每张 GPU 都存储完整模型数据分片各卡独立完成前向、反向计算只同步梯度所有卡并行更新参数FSDPFullyShardedDataParallel多进程一卡对应一进程同 DDP模型参数、梯度、优化器状态全分片存储各卡只存一部分数据分片计算时临时拼装参数计算后释放分片梯度同步按分片更新参数简称全称一句话工作方式DPDataParallel单进程主卡全权负责其他卡只算前向DDPDistributedDataParallel多进程每卡全量模型只同步梯度FSDPFullyShardedDataParallel多进程模型梯度分片计算时临时拼接