- **https://arxiv.org/pdf/1810.05270.pdfhttps://github.com/Eric-mingjie/rethinking-network-pruning**
- openreview https://openreview.net/forum?id=rJlnB3C5Ym
- 내부공유영상: https://jmarple.dooray.com/project/drive-files/2755000042950228647
Overview
본 논문은 기존의 network pruning pipeline(trining/pruning/fine-tuning)에 대한 의문을 제기하고, 실험을 통해 의문에 대한 근거를 제시한 논문입니다. 현재까지 알려진 전형적인 pruning 방식은 baseline model을 training 시키고, pruning 한 후 fine-tuning 하는 과정이어서,
- large-parameterized model 로 training을 시작하는 것이 중요하고,
- pruned architecture와 그와 관련된 weight들(basedline model에서 학습된 weight 된 내용을 상속받은)을 사용하는 것이 최종 모델에서 핵심 아이디어
라는 사실이, pruning의 기본적인 방식이라고 인식되어왔다. 또한 조금 더 작은 모델[1]을 처음부터 training 시키는 방식보다 앞에서의 fine-tuning pruned model을 사용하는 것이 좋은 결과를 낸다고 알려져 있지만, 본 논문에서는 사용하는 fine tuning 방식을 제외하고, 랜덤하게 선택된 weight을 가지고 training 을 시작하면, 앞에서 언급한 large-parameterized model 과 학습된 양의 weight 들이 필요없을 수 있어서, 조금 더 작은 size의 model로 학습할 수 있고, 이미 랜덤하게 선택된 weight들이 pruned small model 의 효과로써 의미가 있으므로, pruning을 architecture search paradigm의 관점으로 보는것을 제안하고, 앞으로 조금 주의해서 baseline을 잡고, 실험을 weight initialization의 방향에서 접근하는 방식도 절대 안된다고 배제하지는 말고 좀 더 연구해보자는 논문입니다. 또한 대표적인 fine-tuning pruned model인 Lottery Ticket Hypothesis[2]과의 실험 결과 비교를 통해서 예외적인 실험결과를 제시합니다.

Architecture
Two network pruning methods: target pruned model의 architecture를 결정하는 주체에 따라 human에 의해서면 predefined으로, pruning algorithm에 의해 결정되면 automatic으로 구분한다.

Experiments
- Comparing training pruned model from scratch and fine-tuning from inherited weight for structured and unstructured pruned model
- setup
- If a previous pruning method’s training setup is publicly available
- otherwise, for simpler pruning methods, e.g., Li et al. (2017) and Han et al. (2015), we re-implement the three-stage pruning procedure and generally achieve similar results as in the original papers;
- for the remaining two methods (Luo et al., 2017; He et al., 2017b), the pruned models are publicly available but without the training setup, thus we choose to re-train both large and small target models from scratch.
- Datasets: CIFAR-10, CIFAR-100, ImageNet