MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

개요
- 모바일이나 임베디드 어플리케이션에서 사용하기 위한 CNN 네트워크 설계하고 이를 MobileNets이라 명명한다.
- 효율적인 네트워크 설계를 위해 다음의 방법들을 제안한다.
- Depth-wise separable convolutions
- Latency와 accuracy 사이의 tradeoff를 할 수 있는 2개의 global hyper-parameters
- Object detection, classification, face attributes, large scale geo-localizaion과 같이 넓은 응용주제에서 좋은 결과를 보여준다.
Depthwise Separable Convolution
표준적인(standard) convolutional layer는 $D_F×D_F×M$ 크기의 feature map을 입력으로 받아서 $D_F×D_F×N$ 크기의 feature map을 출력으로 내보낸다.

이때, 이 convolution 연산의 비용은 다음과 같다.

Depthwise separable convolution은 2가지 layer로 구성된다.
- depthwise convolution