
1 项目背景业务场景算法团队训练了一个多语言客服分类模型,保存后一切正常。两周后需要在英文数据上做增量训练,小陈用from_pretrained()加载模型时看到了这样的警告:Some weights of BertForSequenceClassification were not initialized from the model checkpoint: - classifier.weight - classifier.bias小陈没当回事,直接开始训练。结果训练了 3 个 epoch 后验证集 F1 只有 0.45——因为分类头是随机初始化的,前 3 个 epoch 都在从零学习分类头。更严重的问题发生在模型分片上:一个大模型保存时被分成了 3 个 shard 文件(model-00001-of-00003.safetensors等)。运维人员部署时漏拷了model-00002,加载时没报错——因为strict=False是默认行为,模型静默地用随机权重替代了缺失的分片。痛点from_pretrained()看似简单,背后隐藏着复杂的权重匹配、分片加载和安全校验逻辑:from_pretrained() 核心流程: ┌─────────────┐ │ 1. 加载config │ → 确定模型结构 ├────────────