AMC: AutoML for Model Compression and Acceleration on Mobile Devices


Summary


기존의 model compression 방법들은 대체로 사람의 판단에 의존적이었다. 그 과정에서 굉장히 큰 design space를 탐색해야 하기에 소요되는 시간이 상당하며 최종적인 결과물이 sub-optimal인 경우가 대부분이다.

본 논문에서는 강화학습을 활용한 compression policy로 사람의 수작업 없이도 네트워크의 퍼포먼스를 좀 더 잘 유지하면서도 높은 compression ratio를 유지하는 방법을 제안하며, 그 방법론을 AutoML for Model Compression (AMC)라 명명한다.

강화학습 에이전트가 다음과 같은 절차로 pre-trained network를 layer-by-layer로 pruning한다.

  1. 강화학습 에이전트(DDPG)가 특정 layer에 대한 embedding을 수신한다.
  2. Actor는 embedding을 입력으로 sparity ratio를 결정한다.
  3. 1과 2의 과정을 모든 layer에 대해 수행한다.Critic은 각 compressed layer에 대한 accuracy와 FLOP을 바탕으로 reward를 반환한다.