
paper | code
Overview
Winning ticket은 dataset, optimizer, domain에 걸쳐 일반화되는가? 예를 들면 비젼 데이터인 ImageNet에서 matching ticket을 식별하고 다른 데이터 CIFAR-100으로 전송가능한가? 즉, lottery ticket effect가 새 데이터에서 matching ticket을 훈련한 후에도 유지되 것인지 여부를 확인한다. 절차는
- IMP를 사용하여 소스 dataset에서 lottery ticket을 찾는다
- 수렴될 때까지 훈련하여 새로운 target dataset에 대한 소스 lottery ticket을 평가한다
Dataset
- 이미지에 대해서 작업
- 고려되는 네트워크의 경우,
- 첫 번째 layer는 convolution이므로, hidden layer는 아무것도 변경할 필요가 없다.
- dataset마다 다른 채널 크기에 관계없이 FC layer 차원이 작동하는지 확인하기 위해 average pooling을 사용
- dataset마다 대상 클래스 수가 다르기 때문에, 최종 layer는 복권 전송에서 제외되어야 하고 랜덤 초기화된다.
- 이 과정은 representation(훈련된 가중치 형태)을 전송하지 않고 별도의 dataset에서 찾은 초기화 및 마스크를 전송 (기존의 전이학습과의 차이점)
- A, B: small source dataset에서 ImageNet으로 VGG-19 ticket을 전송하는 것은 잘 수행되나, target dataset에서 inference 되는 것 보다는 나쁘다. target dataset 보다 큰 source dataset에서 inference 된 ticket은 target dataset에서 inference 된 ticket 보다 성능이 뛰어남
- C, D: Resnet-50의 경우 거의 동일하다. 그러나 Resnet-50보다 작은 가지치기 부분(VGG-19보다 Resnet-50에 대한 더 날카로운 "가지치기" 절벽)에 대해 이미 성능이 저하되는 것을 관찰할 수도 있다.

Optimizer
전송가능? VGG-19에서 가능.

일반적인 귀납적 편향으로서 티켓의 엄청난 잠재력을 강조한다. 매우 큰 데이터 세트(많은 계산 사용)에서 강력한 일치 티켓을 찾는 것을 상상할 수 있다. 그런 다음 이 범용 티켓 은 느슨하게 도메인 관련 작업(잠재적으로 모든/대부분)에 대한 초기화 장치로 유연하게 작동할 수 있다. 따라서 티켓은 가중치 초기화의 메타 학습 개념과 유사하게 가중치 초기화 공간에서 분할 상환 검색의 한 형태를 수행할 수 있다.