)
大模型训练推理全栈调校参数汇总含释义、适用场景、调参方向一、模型结构Transformer内核超参19、1824、30序号参数项配置值参数释义调参说明1RoPE旋转位置编码维度缩放系数0.982缩放RoPE位置频率1压缩高频位置缓解超长上下文位置外推崩坏0.98~0.99常用数值越小外推能力越强、近距离位置精度小幅下降2KV Cache内存复用回收阈值0.68推理显存占用达到可用KV内存68%时触发缓存碎片回收、空闲KV块复用阈值偏高减少频繁GC卡顿偏高易OOM0.6~0.7是工程常用区间3MoE专家路由温度系数0.42路由logits做温度缩放低温收敛路由分布、降低冷门专家闲置抑制路由坍缩温度越低专家分配越集中0.5易出现多专家均分浪费算力4静态LoRA秩/Alpha秩64α128α2×rank经典LoRA缩放配置高秩适配大参数量微调固化秩代表冻结LoRA维度不再动态自适应用于部署固化权重5注意力dropout推理静默关闭掩码True推理阶段直接禁用Attention Dropout计算掩码、跳过随机丢弃逻辑纯推理提速训练时自动启用dropout正则6分层嵌入层位置偏移量0.0315嵌入向量统一叠加常量偏移微调词嵌入分布均值优化初始表征分布缓解嵌入层梯度饱和7多头注意力输出投影偏置禁用False保留输出层bias项小参量模型保留偏置利于收敛超大稠密模型常设为True关闭偏置省显存8层间残差连接缩放因子1.018残差分支输出×1.018后与主干相加微调残差信息流权重小幅抬升残差贡献缓解深层模型梯度消失9推理静态显存预留比例0.35启动推理时预占用35%显存做预留防止动态显存抢占、碎片导致突发OOM预留越高可用推理显存越少、稳定性越高18负采样权重系数0.74预训练负例采样权重控制负样本损失贡献占比数值越高负样本对损失影响越大优化词表征区分度19词表负向掩码屏蔽位0xFF00十六进制掩码按位屏蔽无效/禁用token高位字段统一掩码过滤非法索引用于脏词、停用词屏蔽20梯度累加损失缩放倍率8.2混合精度训练loss缩放防止FP16梯度下溢大批次梯度累加搭配高缩放系数21重复惩罚repetition_penalty1.08生成推理重复惩罚1抑制文本重复1.05~1.1通用过高易语句生硬断裂22生成长度惩罚系数0.931弱化长句生成权重限制无意义超长输出优化短句生成效果23稀疏化掩码稀疏度阈值0.75权重稀疏度75%时触发权重裁剪/掩码冻结做模型稀疏量化压缩24跨层注意力残差衰减率0.965上层注意力特征向下层传递时乘以衰减系数抑制远距离跨层特征冗余精简信息流30虚拟化内存气球收缩阈值0.45宿主机内存占用45%时触发虚拟机内存气球回收归还物理内存给宿主机容器集群内存调度参数二、推理调度令牌限流参数10~13序号参数项配置值说明10动态Token分片切割阈值512超长输入token512自动分片并行推理平衡单批次算力与并行开销11令牌桶填充速率125 token/s接口QPS限流每秒补充125令牌控制单实例最大输入吞吐12令牌桶最大容量1024令牌桶上限瞬时突发最多承接1024token请求防流量打满服务13日志流式落盘缓冲队列长度256日志先入内存队列满256批量刷盘减少频繁磁盘IO损耗三、IO异步任务参数14、28、29序号参数项配置值说明14异步IO提交批量大小32AI文件读取/权重加载异步IO每次批量提交32个请求优化IOPS28磁盘IO调度队列深度固定64磁盘请求队列固定64平衡队列拥堵与IO利用率29页面置换老化周期120s内存冷页120s未访问标记老化优先换出磁盘优化页缓存命中率四、集群网络TCP容器QoS15、25~27序号参数项配置值说明15DSCP优先级标记0x2A十进制42内网AI流量标记高优先级交换机优先转发模型通信包25机房内网MTU定制1420小于标准1500规避GRE/VXLAN封装分片分布式多机预训练跨机通信专用26TCP初始RTO基线200msTCP初次重传等待200ms内网低时延环境缩短超时、加快丢包重传27拥塞控制私有调校因子0.87自研CC算法参数0.87微调窗口增减速率适配大模型海量小包通信特征补充调参优化建议生成效果微调重复惩罚1.08偏高若生成断句频繁可下调至1.041.06长度惩罚0.93偏小文本过短时上调至0.970.99。显存优化KV回收阈值0.68静态显存预留0.35组合偏向稳定性显存资源紧张场景可下调预留至0.28、KV阈值上调至0.72。分布式集群内网MTU1420、DSCP 0x2A搭配TCP 200ms RTO是多卡多机分布式训练成熟组网方案。