HuggingFace가 NeuralPS(뉴립스) 2019에서 발표한 논문
teacher, student model로 구성된다.
teacher: 기존의 거대한 구조를 유지하면서 feature들 학습하고 student model을 학습 시킨다.
student: teacher보다 layer, parameters가 적음에도 teacher의 feature를 모사하려고 노력하는 모델.

동작 원리

Teacher: BERT의 Seq2Seq와 동일하다.

'I go home'을 입력으로 했을 때, Seq2Seq의 teacher는 'I'에 대해서 'go'를 예측하고자 한다.
'I'에 대한 입력에 대해서 vocabulary size만큼의 vector 생성되고 여기에 softmax를 취한다.
2번의 결과에 대해서 확률값이 가장 큰 값은 'go'에 해당하는 index일 것이다.

Studnet: Teacher의 출력인 target distribution을 ground truth로 하여 학습한다. 단순히 Teacher의 출력을 모사하도록 한다.

TinyBERT

Teacher, student로 이루어지는 구조는 DistillBERT와 동일하다. TinyBERT는 teacher의 출력 distribution만을 모사하는 것이 아니라, 중간 생성물인 query, key, value, hidden state들까지도 모사하도록 한다.

Teacher에 비해서 student는 경량화모델이기 때문에 layer의 dimension들이 teacher에 비해 작다. 모사할 때 이것이 문제가 되는데, teacher의 dimension을 축소시키는 fully connected layer를 추가해서 해결했다고 한다.

참고

Advanced Self-supervised Pre-training mode