Introduction


Lottery Ticket Hypothesis(이하 LTH)는 다음과 같은 과정을 통해 network pruning을 하는 방법이다. 원저자는 이 방법이 매우 좋은 성능을 보임을 여러 실험을 통해 입증하였지만, 아직까지 LTH의 각 과정들이 pruning의 최종적인 성능에 어느정도의 영향을 미치는지에 대해서는 깊이있게 다루어진 바가 없다.

본 논문에서는 LTH의 각 component가 LTH에 얼마만큼의 영향을 미치는지 알아보고 나아가 untrained network에 적용되어 좋은 학습성능을 기대하게 하는 'Supermask'의 존재에 대하여 탐구한다. 주요 내용은 다음과 같다.

  1. 다른 Mask Criterion이 적용된다면? (Section2)
  2. 다른 Mask-1 Action이 적용된다면? (Section3)
  3. 다른 Mask-0 Action이 적용된다면? (Section4)
  4. Supermasks의 존재에 대해 (Section5)

Mask Criterion


Mask Criterion이란 어떤 weight를 유지할지 또는 잘라낼지(prune) 결정하는 방법을 칭한다. LTH에서는 단순히 절대값의 크기가 큰 weights를 유지하는 방법을 이용한다. 본 논문에서는 그 방법을 포함하여 다음과 같은 9가지의 Mask Criterion을 사용해보았다. 아래 그림에서 색깔로 표시한 영역이 유지되는 부분, 회색으로 표시한 부분이 잘라내는 부분이다. (Random의 경우 전 영역을 대상으로 임의의 masking을 하기 때문에 전체를 회색으로 표시)

실험에는 FC만으로 구성된 네트워크와 2/4/6개의 Conv 레이어로 구성된 Conv 네트워크를 이용하였으며, FC 네트워크에는 MNIST를, Conv네트워크에는 CIFAR10을 데이터셋으로 이용했다. 실험결과는 다음과 같다 (5번 시행한 결과의 mean 값을 표시).