
Overview
Lottery ticket을 찾기 위해서는 반복적이인 train-prune-retrain 과정을 거쳐야하며, 이 소모적인 과정으로 인해 경우에 따라 lottery ticket 방법론의 실효성이 떨어질 수 있음을 저자들은 지적한다. 본 논문에서는 winning ticket을 학습의 초반부에서 찾을 수 있다는 가정을 시작으로 ticket mask distance를 정의하고 이를 통해 학습의 초반부에서 Lottery Ticket (일명 Early-Bird Ticket)을 찾을 수 있음을 주장한다.
Experiment Settings
- Network: VGG16, PreREsNet101 (Pre-activation Residual Networks-101)
- Datasets: CIFAR-10, CIFAR-100
- Epochs: 160
- Batch size: 256
- Initial learning rate: 0.1
- Learning rate schedule: 80th epoch, 120th epoch에서 1/10로 감소
- Optimizer: SGD with 0.9 momentum
- Weight Decay: 1e-4
- Pruning method: Channel pruning (Liu et al., 2017의 설정 이용). 각 채널에 대한 batchnorm의 scale parameter rr의 크기를 보고 pruning을 결정 (r이 작은 channel을 pruning) - Lottery Ticket Hypothesis에서 Unstructured Pruning을 쓴 것에 대조적
Retrain Accuracy at each epoch
모든 실험사례에서 retraining의 매우 초반부분(약 20epoch)에 가장 좋은 성능의 subnetwork가 발견되고 있다. 저자들은 이를 Early-Bird Tickets(이하 EB Ticket)이라 칭하며 이러한 EB ticket이 항상 존재할 수 있으리라 가정한다.