

Mobile model의 경우 작고 빠르면서도 높은 성능을 유지하는 네트워크 구조를 찾는 것이 관건인데, latency와 accuracy 사이에 적절한 균형을 갖는 구조를 선택하는 것은 매우 어려운 일이다. 본 논문은 mobile CNN model을 자동으로 설계하는 방법을 제안하며, 주요한 주요한 두 가지 접근은 다음과 같다.
Accuracy와 latency가 모두 반영된 multi-objective 최적화 문제를 정의Flexibility와 search space size 사이의 적절한 균형을 취하는 factorized hierarchical search space
MnasNet은 가령 FLOPS 같은 indirect metric이 아닌 실제 mobile device 상에서의 inference latency를 최적화 문제에 대한 metric으로 사용한다. $m$이라는 model이 주어졌을 때 $ACC(m)$을 task에 대한 모델의 accuracy, $LAT(m)$을 target mobile platform에서의 inference latency, $T$를 target latency라고 해보자. $T$에 대한 hard constraint를 전제로 accuracy를 최대화하는 일반적인 최적화 문제는 다음과 같이 정의할 수 있다.
$\max_m\:ACC(m)$
$s.t.LAT(m)≤T$
이러한 방식은 오로지 한가지 metric(acc)에 대해서만 최적화를 수행하며, 그러므로 multiple Pareto optimal solutions를 찾을 수 없다는 한계점이 있다 (e.g. 다음 중 한가지에 해당하는 모델을 Pareto optimal이라 한다: 1. latency를 높이지 않으면서 최대한의 accuracy를 갖는 모델을 찾거나, 2. accuracy를 낮추지 않는 상태에서 가장 낮은 latency를 갖는 모델을 찾는 것). 여기서는 Pareto optimal solutions를 근사하기 위해 다음과 같이 튜닝이 편리한 형태의 weighted product method를 최적화 문제로 정의한다.
$\max_m \:ACC(m) \times \big[\frac{LAT(m)}{T}\big]^w$
$w = \alpha \text{ if } LAT(m) \le T \text{ otherwise } \beta$
$α$와 $β$는 application-specific constants다. $w$가 음수라는 것은 최적화를 통해 $LAT$를 최소화한다는 것을 의미하며, $|w|$가 0에 가까우면 latency를 적게, 1에 가까우면 latency를 많이 고려한다는 것을 의미한다. 논문에서는 모델의 accuracy가 5%씩 오를 때마다 latency가 대략 두 배씩 오르는 실험결과를 바탕으로 $α$와 $β$의 값을 -0.07으로 역산했다

Figure 3을 보자. Hard constraint maximization problem(위)의 경우 고정된 accuracy에 대해 최소한의 latency를 갖는 모델을 찾을 수 없는 반면, soft constraint(아래, 본 논문의 제안)를 갖는 최적화 문제는 고정된 accuracy에 대해 최소한의 latency를 갖는 모델을 점진적으로 찾을 수 있음을 알 수 있다.