#
Generalized Knowledge Distillation (GKD)
泛化知识蒸馏是一种改进的知识蒸馏技术,旨在解决传统知识蒸馏方法在自回归序列模型中遇到的分 布不匹配问题,特别是在训练和推理阶段之间。传统的知识蒸馏方法通常基于固定的输出序列集进行, 这些序列或者是教师模型生成的,或者是基于真实数据的标签。然而,这导致学生模型在推理时生成 的序列可能与训练时见到的序列分布不同,从而影响了学生模型的泛化能力。
GKD 不再局限于固定输出序列的训练,而是允许学生模型在其自我生成的序列上进行学习,同时利用 教师模型提供的反馈。