Overview
81개의 pruning method를 비교. Network pruning에 대한 연구가 활발하게 진행되고 있지만 결과를 객관적으로 평가하기 위한 적절한 척도가 없음을 지적. 예를 들어,
- Baseline method라 할만한 것이 없음
- 실험에 이용하는 architecture와 데이터셋이 제각각
- 성능을 평가하기 위한 metric이 제각각
- 기타 실험에 대한 설정이 일관적이지 않음
- 논문에서는 이에 대한 나름의 기준과 함께 shrinkbench라는 pruning evaluation 툴의 사용을 제안함.
얻어갈만한 내용
- 모든 layer를 균등하게 pruning하면 대체로 성능이 좋지 않음. Global pruning을 하던지 layer 별로 적절한 pruning ratio를 두던지 하는 것이 좋음.
- 같은 수의 parameter를 가지고 있더라도 sparse model이 더 좋은 성능을 보이는 경향이 있음.
- sparse model의 성능이 parameter가 더 많은 dense 모델의 성능을 압도하는 경우가 종종 관측됨.
- Pruning 후 scratch부터 학습하는 것 보다 fine-tuning을 하는 것이 더 좋은 성능을 보임 (상반된 주장의 논문들이 있어서 확인이 더 필요)