Overview

81개의 pruning method를 비교. Network pruning에 대한 연구가 활발하게 진행되고 있지만 결과를 객관적으로 평가하기 위한 적절한 척도가 없음을 지적. 예를 들어,

  1. Baseline method라 할만한 것이 없음
  2. 실험에 이용하는 architecture와 데이터셋이 제각각
  3. 성능을 평가하기 위한 metric이 제각각
  4. 기타 실험에 대한 설정이 일관적이지 않음
  5. 논문에서는 이에 대한 나름의 기준과 함께 shrinkbench라는 pruning evaluation 툴의 사용을 제안함.

얻어갈만한 내용

  1. 모든 layer를 균등하게 pruning하면 대체로 성능이 좋지 않음. Global pruning을 하던지 layer 별로 적절한 pruning ratio를 두던지 하는 것이 좋음.
  2. 같은 수의 parameter를 가지고 있더라도 sparse model이 더 좋은 성능을 보이는 경향이 있음.
  3. sparse model의 성능이 parameter가 더 많은 dense 모델의 성능을 압도하는 경우가 종종 관측됨.
  4. Pruning 후 scratch부터 학습하는 것 보다 fine-tuning을 하는 것이 더 좋은 성능을 보임 (상반된 주장의 논문들이 있어서 확인이 더 필요)