模型压缩技术-尧图网站设计

一、模型蒸馏Knowledge Distillation1. 什么是模型蒸馏模型蒸馏是一种模型轻量化技术/模型压缩技术让大模型BERT教师教小模型BiLSTM学生把大模型教师模型 Teacher学到的知识迁移到小模型学生模型 Student。不只迁移硬标签真实类别还要迁移软标签类别之间的关联概率分布让小模型在保持较小体积的同时尽可能接近大模型的效果、具备大模型的推理能力。2. 软标签 vs 硬标签硬标签Hard Label真实one-hot 标签只有目标类别为 1其余全为 0只学到类别边界学不到类别间的相似性。硬标签损失计算通过学生硬输出与真实标签的交叉熵学生学习教师的最终答案。软标签Soft Label教师模型输出经过温度 T 平滑后的概率分布包含类别间关系信息。软标签损失计算通过学生软分布与教师软分布的KL散度学生学习教师的概率分布。总结KL散度计算软标签损失学生软分布与教师软分布的 KL 散度、交叉熵损失计算硬标签损失学生硬输出与真实标签的交叉熵、MSE计算中间隐藏层损失学生隐藏层,与教师隐藏层的MSE3. 温度T的作用用高温T将硬输出平滑为软标签压低最高类别概率抬高非目标类别的概率释放类别间的暗知识。推理阶段把 T 重置为 1。4. 总损失1. 公式经验取值α0.7∼0.92. 描述先用高温 T 把教师输出平滑为软标签用 KL 散度让学生拟合这个软分布再叠加原始数据集的分类交叉熵同时学习类别关联知识与真实任务标签。3. 损失函数由两部分加权组成① 蒸馏损失学生软分布与教师软分布的 KL 散度T1学习暗知识。② 真实标签损失学生硬输出与真实标签的交叉熵T1保证拟合真实数据。5. 整体流程

模型压缩技术

相关新闻

eDiffi扩散模型原理与AI图像生成可控性技术解析

TFLite模型高效集成：从Gradle自动化到本地化部署实战

从一段模板说起

PyCharm调试多进程训练脚本：从“帧不可用”到高效定位的实战指南

计算机专业就业：项目里真正好用的做法

CVE-2018-17246漏洞深度剖析：Kibana路径遍历与Node.js文件读取安全实践

C/CUDA 从头构建 GPT - 2 类语言模型：训练流程完整，性能与功能兼具！

第1关：Pyhanlp 实战入门：从零到一的关键词提取

Visual C++运行库合集AIO：3分钟解决Windows软件依赖难题

HyperFrames 设计、品味与借鉴

550+免费RPG Maker插件库：从新手到专家的完整游戏开发解决方案

如何在3秒内从普通图片生成专业级法线贴图：DeepBump的终极指南

终端里的 AI 驾驶舱：Claude Code 斜杠命令深度解析

华为OD机试2025C卷-字符串变换最小次数[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

华为OD机试2025C卷-内存资源分配[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

Harness 中的响应合并：将多个片段组装为完整输出

Windows Cleaner终极教程：5分钟彻底解决C盘爆红问题，让系统重获新生！

别再只会用ifconfig了！在Ubuntu 22.04/20.04上，教你用ip命令并顺带配置好国内镜像源