
凌晨两点,部署在产线上的目标检测模型突然把一批合格品全部标记为“缺陷品”。产线紧急停机,我盯着监控画面里那些明明符合标准的零件,心里一沉——这不是模型收敛问题,是数据偏见在作祟。偏见从哪里来?那次事故的根源在于训练数据分布不均。我们用了过去三个月的生产数据,但那段时间恰好是设备调试期,异常样本比例是正常生产时的五倍。模型学会了“过度敏感”,把正常工艺波动也判定为缺陷。这种偏见在测试集上表现不明显,因为测试集同样来自那个时段。数据偏见通常藏在三个地方:样本数量分布不均(比如正负样本9:1)特征分布偏移(训练集光照条件单一,实际环境多变)标注主观偏差(不同标注员对“轻微划痕”标准不一)检测:用代码挖出隐藏的偏见# 偏见检测工具箱importnumpyasnpfromcollectionsimportCounterdefchec