
IMP는 spase network도 필요하고, sparse network에 대한 반복적인 훈련도 필요해서 winning ticket을 찾는 것은 계산 비용이 많이 든다. 그렇다면, training 이나 data 없이 winning ticket을 얻을 수 있나? 가능하다. 데이터를 안 보고도 처음부터 찾을 수 있다.
문제점. Layer-collapse 즉, 가지치기를 할 때 문제가 되는 것 중 하나는 가지치기를 많이 하면 네트워크 흐름이 끊어져서, 뒤에 있는 중요한 뉴런들이 정보를 받지 못 하게 되고 이로 인해 학습 자체가 불가능하게 되는 것 (the gradient flow is cut-off)
해결방법. FC layers set으로 구성된 MLP를 생각해보면, 이론적으로 달성가능한 maximal compression에 해당하는 layer당 단일 가중치를 유지하여 layer-collapse를 방지할 수 있다. Collapse 없이 가지치기 알고리즘으로 달성할 수 있는 compression level을 critical compression이라 한다. 이 두 가지가 동일한 것이 이상적이다.

Flow network의 영감으로 gradient-based score인 synaptic saliency를 정의한다.

R: a flow objective, θ: the parameters
이 metric은 layerwise relevance propagation과 관련이 있고, 기여 형태를 측정한다. 그 이후 micro-뉴런과 macro-network에서의 두 가지 saliency conservation law을 증명한다. 이를 통해 저자들은 충분한 압축을 위해 그레디언트 기반 방법이 큰 레이어를 완전히 잘라낼 수 있음을 보여줄 수 있다(한번 평가된 경우). 또한 작은 비율로 반복적인 가지치기뿐만 아니라 계층별 보존을 장려하는 gradient descent 때문임을 보여준다. 따라서 maximal critical compression을 원하는 모든 global pruning algorithm은
레이어별 보존에 긍정적인 점수를 매기고
가지치기 후 점수를 반복적으로 재평가한다.

이런 관찰을 기반으로 초기화된 네트워크를 통해 시냅스 강도의 흐름을 보존하는 마스크를 생성하는 반복 절차를 정의한다. 가장 중요한 것은 이 절차가 완전히 데이터에 구애받지 않고, 랜덤 초기화만 필요하다는 것이다. CIFAR-10/100 및 Tiny ImageNet에서 '초기화 시 가지치기' 기준을 능가할 수 있다.