개요


기존의 Knowledge distillation(KD)는 teacher와 student network의 output 사이의 KL divergence를 최소화하는 방식으로 접근해왔다. 이 과정에서, teacher network의 중요한 structural knowledge는 무시되어 그 데이터에 대한 teacher's representation 에서 좀 더 중요한 정보를 취득하도록 contrastive learning으로 objective를 만들어서 student를 training 시키는 방법을 제시한다. 본 논문에서는 contrastive objective를 이용하여, MI(mutual information)의 lower bound를 제시하고 실험을 통해 single model compression, cross-modal transfer, ensemble distillation를 포함한 다양한 knowledge distillation에서 the SOTA 결과를 향상시켜 보여주었다.

Problem : correlations and higher order output dependencies


Overcome : contrastive objective function


Method