
Weight Pruning으로 얻은 target network를 initial weight로 초기화하여 학습한다는 LTH의 아이디어에서 약간의 변형.

저자들은 본 논문을 통해 k번째 학습한 weight로 pruned network를 초기화하는 것이 학습의 안정성이 굉장히 올려준다는 것을 주장하며 이 방법을 Rewinding이라 명명함. 이 방법을 통해 LTH에서는 학습이 어려웠던 (ResNet 같은) modern architecture와 (ImageNet 같은) large dataset의 학습을 가능하게 함.
참고로 논문에서는 총 iteration의 0.1% ~ 7% 정도의 지점을 rewinding point로 언급하지만, 네트워크 아키텍쳐와 데이터셋에 따라 다소 상이할 것으로 여겨짐.

깊은 네트워크와 큰 데이터셋을 이용한 pruning에 잘 작동함.
