摘要:
半监督知识蒸馏方法同时蒸馏有标签样本和无标签样本, 有效减少了对标注数据的依赖, 同时保证了蒸馏性能. 然而直接在半监督场景下进行知识蒸馏, 教师网络容易对无标签样本生成错误的知识, 会导致学生网络的认知偏差问题. 为此, 本文提出了一种基于半监督对比学习的知识蒸馏方法(semi-supervised contrastive learning based knowledge distillation, SCLKD), 挖掘无标注数据的伪标签知识和类别对比知识优化学生网络. 具体来说, SCLKD把教师网络对于无标签数据的预测做阈值筛选, 选出高置信度的预测作为伪标签, 用来指导学生训练. 然后, 根据教师模型给出伪标签和软预测, 用多正例的软目标对比学习方法, 进一步减轻认知偏差问题. 本文方法在CIFAR-100、STL-10和ImageNet数据集上进行评估. 实验表明, SCLKD在CIFAR-100上使用80%的训练数据标签就超越了全监督知识蒸馏的先进方法. 此外, SCLKD首次用Wide ResNet28-2在CIFAR-100上仅使用20%标签就超越了全监督训练的结果. 证明本方法可以减少模型对标注数据的依赖, 同时避免认知偏差带来的性能损失问题.