模型压缩技术

发布时间:2026/6/29 11:54:27

模型压缩技术 一、模型蒸馏Knowledge Distillation1. 什么是模型蒸馏模型蒸馏是一种模型轻量化技术/模型压缩技术让大模型BERT教师教小模型BiLSTM学生把大模型教师模型 Teacher学到的知识迁移到小模型学生模型 Student。不只迁移硬标签真实类别还要迁移软标签类别之间的关联概率分布让小模型在保持较小体积的同时尽可能接近大模型的效果、具备大模型的推理能力。2. 软标签 vs 硬标签硬标签Hard Label真实one-hot 标签只有目标类别为 1其余全为 0只学到类别边界学不到类别间的相似性。硬标签损失计算通过 学生硬输出与真实标签的交叉熵学生学习教师的最终答案。软标签Soft Label教师模型输出经过温度 T 平滑后的概率分布包含类别间关系信息。软标签损失计算通过 学生软分布与教师软分布的KL散度学生学习教师的概率分布。总结KL散度计算软标签损失学生软分布与教师软分布的 KL 散度、交叉熵损失计算硬标签损失学生硬输出与真实标签的交叉熵、MSE计算中间隐藏层损失学生隐藏层,与教师隐藏层的MSE3. 温度T的作用用高温T将硬输出平滑为软标签压低最高类别概率抬高非目标类别的概率释放类别间的暗知识。推理阶段把 T 重置为 1。4. 总损失1. 公式经验取值α0.7∼0.92. 描述先用高温 T 把教师输出平滑为软标签用 KL 散度让学生拟合这个软分布再叠加原始数据集的分类交叉熵同时学习类别关联知识与真实任务标签。3. 损失函数由两部分加权组成① 蒸馏损失学生软分布与教师软分布的 KL 散度T1学习暗知识。② 真实标签损失学生硬输出与真实标签的交叉熵T1保证拟合真实数据。5. 整体流程​

相关新闻