paper | code | Doc |

동작 원리

Teacher: BERT의 Seq2Seq와 동일하다.

  1. 'I go home'을 입력으로 했을 때, Seq2Seq의 teacher는 'I'에 대해서 'go'를 예측하고자 한다.
  2. 'I'에 대한 입력에 대해서 vocabulary size만큼의 vector 생성되고 여기에 softmax를 취한다.
  3. 2번의 결과에 대해서 확률값이 가장 큰 값은 'go'에 해당하는 index일 것이다.

Studnet: Teacher의 출력인 target distribution을 ground truth로 하여 학습한다. 단순히 Teacher의 출력을 모사하도록 한다.

TinyBERT

Teacher, student로 이루어지는 구조는 DistillBERT와 동일하다. TinyBERT는 teacher의 출력 distribution만을 모사하는 것이 아니라, 중간 생성물인 query, key, value, hidden state들까지도 모사하도록 한다.

Teacher에 비해서 student는 경량화모델이기 때문에 layer의 dimension들이 teacher에 비해 작다. 모사할 때 이것이 문제가 되는데, teacher의 dimension을 축소시키는 fully connected layer를 추가해서 해결했다고 한다.

참고

Advanced Self-supervised Pre-training mode