
Fine-tuning처럼 학습한 weight 값을 그대로 상속받되, fine-tuning이 training의 final learning rate를 고정한 채로 t epoch을 추가학습하는 것과 달리, learning rate schedule을 full original training time에 대해 rewinding하는 전략을 제안하고 이를 learning rate rewinding이라 명명함. (e.g. t epochs의 retraining을 할 시, 마지막 t epochs의 learning rate schedule을 따름)
이 방법은 모든 네트워크와 task에 대해 동일한 hyperparameter로 weight rewinding과 엇비슷하거나 더 좋은 성능을 보임. 논문에서는 다음의 데이터셋과 네트워크 아키텍쳐를 이용하여 fine-tuning, weight rewinding, learning rate rewinding 간의 비교실험을 수행함.
