

더 높은 accuracy를 얻기 위해 width, depth 또는 resolution의 조정으로 Convolutional Neural Network의 크기를 올릴 수 있다. 일반적으로 각각의 파라미터를 키우는 것으로 더 높은 accuracy를 기대할 수 있으나, 일정 구간을 지나가면 연산량의 증가폭에 대비하여 accuracy의 증가폭이 매우 낮아지는 것을 관찰할 수 있다.

또한 각각의 파라미터는 서로에게 의존성이 있어서 하나의 파라미터를 바꾸면 더 좋은 성능을 기대하기 위해서는 다른 파라미터 또한 적절히 바꾸어줘야 하는데, 이것이 모델 설계에 대한 복잡도를 높이는 문제를 야기한다. 아래 그림은 고정된 depth, resolution에 대해 width를 조정하며 accuracy의 변화를 기록한 그래프다. Width가 커지면 이에 상응하여 더 높은 depth 및 resolution을 설정해야 더 좋은 성능을 보임을 알 수 있다.

이러한 특성으로 인해 모델을 설계함에 있어 적절한 밸런스의 depth, resolution, width를 찾는 것은 굉장히 큰 수고를 필요로 한다. 본 논문에서는 depth / width / resolution을 설정하기 위한 fixed scaling coefficient를 제안하고 이 값을 얻게 되기까지의 과정을 서술한다.
ConvNet의 구조가 같은 형태의 Layer FF가 반복적으로 적용되는 구조라고 할 때, ConvNet을 다음과 같이 정의할 수 있다. (Search space를 줄이기 위해 인접한 layer들의 크기는 constant ratio를 따라 변하는 것으로 제약을 설정한다.)

그렇다면 자원에 대한 제약조건을 가지며 model accuracy를 최대화하는 최적화 문제는 다음과 같이 정의할 수 있다.

이때 $d,w,r$을 결정하는 compound scaling method를 아래와 같이 제안한다. $d$를 두 배로 하면 네트워크의 FLOPS가 두 배로, $w$와 $r$을 두 배로 하면 네트워크의 FLOPS가 네 배로 증가하는 특성에 의해,