

커다란 Convolution Filter는 상대적으로 high-resolution patterns를 더 잘 잡아내는 경향이 있다. 그렇기에 3×3보다 필터의 크기를 좀 더 키웠을 때 일정 수준까지는 모델의 accuracy가 올라가는 것을 관측할 수 있다 (Figure 1). 본 논문은 한 가지 크기의 kernel을 사용할 때 다양한 resolution patterns를 잡는데 어려움이 발생할 수 있음을 가정하며 하나의 depthwise convolution 연산에서 여러가지 크기의 kernel을 동시에 이용하는 방법을 제안한다 (MixedConv). 아래 그림처럼 input tensor의 채널을 몇 개의 그룹으로 나누어서 각 그룹에 다른 크기의 convolution filter를 적용하는 방법이다.

Tensorflow를 이용해 구현한다면 다음과 같을 것이다 (채널 별로 별도의 conv filter가 적용되는 형태).

Group size(g)를 1로 설정했을때는 depthwise conv 연산과 동일해진다. 저자는 그룹의 갯수를 1에서 5까지로 실험해보았으며 MobileNet 구조에서는 g=4가 안전한 선택임을 발견했다고 한다.