스크린샷 2021-09-27 오후 6.49.21.png

Paper | Code | Blog1 | Blog2

Overview


IMP는 spase network도 필요하고, sparse network에 대한 반복적인 훈련도 필요해서 winning ticket을 찾는 것은 계산 비용이 많이 든다. 그렇다면, training 이나 data 없이 winning ticket을 얻을 수 있나? 가능하다. 데이터를 안 보고도 처음부터 찾을 수 있다.

어떻게?

문제점. Layer-collapse 즉, 가지치기를 할 때 문제가 되는 것 중 하나는 가지치기를 많이 하면 네트워크 흐름이 끊어져서, 뒤에 있는 중요한 뉴런들이 정보를 받지 못 하게 되고 이로 인해 학습 자체가 불가능하게 되는 것 (the gradient flow is cut-off)

해결방법. FC layers set으로 구성된 MLP를 생각해보면, 이론적으로 달성가능한 maximal compression에 해당하는 layer당 단일 가중치를 유지하여 layer-collapse를 방지할 수 있다. Collapse 없이 가지치기 알고리즘으로 달성할 수 있는 compression level을 critical compression이라 한다. 이 두 가지가 동일한 것이 이상적이다.

스크린샷 2021-09-28 오전 1.35.55.png

Flow network의 영감으로 gradient-based score인 synaptic saliency를 정의한다.

스크린샷 2021-09-28 오전 1.51.43.png

                        R: a flow objective, θ: the parameters

이 metric은 layerwise relevance propagation과 관련이 있고, 기여 형태를 측정한다. 그 이후 micro-뉴런과 macro-network에서의 두 가지 saliency conservation law을 증명한다. 이를 통해 저자들은 충분한 압축을 위해 그레디언트 기반 방법이 큰 레이어를 완전히 잘라낼 수 있음을 보여줄 수 있다(한번 평가된 경우). 또한 작은 비율로 반복적인 가지치기뿐만 아니라 계층별 보존을 장려하는 gradient descent 때문임을 보여준다. 따라서 maximal critical compression을 원하는 모든 global pruning algorithm은

이런 관찰을 기반으로 초기화된 네트워크를 통해 시냅스 강도의 흐름을 보존하는 마스크를 생성하는 반복 절차를 정의한다. 가장 중요한 것은 이 절차가 완전히 데이터에 구애받지 않고, 랜덤 초기화만 필요하다는 것이다. CIFAR-10/100 및 Tiny ImageNet에서 '초기화 시 가지치기' 기준을 능가할 수 있다.

Experimental details