1.개요


On-device inference 는 constrained resources로 인해 아직 도전 과제이다. 이 문제는 model size를 줄이거나, minimal accuracy loss를 갖는 CNN의 inference time 을 줄이는 데 연구가 집중되어 있다. 이 논문은 세 가지의 contribution을 주장한다.

제안한 quantization 기법은 추론단계에서 integer-only arithmetic 을 이용하여 추론할 수 있고, 일반적으로 사용가능한 integer-only hardware 에서 floating point inference 보다 더 효율적으로 구현할 수 있다. quantization 이후 trade-off 인 end-to-end model accuracy 와 on-device latency는 popular ARM CPU 에서 mobilNet 기반 ImageNet classification 과 COCO detection 으로 확인한다.

2.Quantization 의 두 가지 접근법


3.Quantized Inference : Quantization scheme