Temel Kavramlar
모바일 기기의 제약 조건을 고려하여 정확도와 효율성의 균형을 이루는 범용 신경망 모델 MobileNetV4를 제안한다.
Özet
이 논문은 모바일 기기에서 효율적으로 동작하는 신경망 모델 MobileNetV4를 소개한다. 주요 내용은 다음과 같다:
- 유니버설 인버티드 병목 (UIB) 블록: 기존 인버티드 병목 블록을 확장하여 공간적, 채널 간 혼합, 수용 영역 조절, 계산 효율성 향상을 제공한다.
- 모바일 MQA 블록: 모바일 가속기에 최적화된 주의 집중 메커니즘으로 39% 이상의 속도 향상을 달성한다.
- 개선된 NAS 기법: 두 단계의 검색 과정을 통해 기존 모델 대비 향상된 성능의 모델을 생성한다.
- 증류 기법 개선: 데이터 증강 기법과 JFT 데이터셋 활용으로 모델 성능을 추가로 향상시킨다.
이러한 기술적 혁신을 통해 MobileNetV4는 CPU, GPU, DSP, 전용 가속기 등 다양한 모바일 하드웨어에서 대부분 최적의 성능을 보인다. 특히 Pixel 8 EdgeTPU에서 87%의 ImageNet-1K 정확도와 3.8ms 추론 지연 시간을 달성하며 모바일 컴퓨터 비전 분야의 새로운 기준을 제시한다.
İstatistikler
MobileNetV4-Hybrid-Large 모델은 EfficientNet-L2 대비 15배 작은 파라미터 수와 48배 작은 MACs로도 1.6% 정도의 정확도 하락만 있다.
MobileNetV4-Conv-L 모델을 2000 에폭 동안 증류 학습하면 85.9%의 ImageNet-1K 정확도를 달성한다.
Alıntılar
"MobileNetV4 models are mostly Pareto-optimal across a range of accuracy targets and mobile hardware, including CPUs, DSPs, GPUs, and specialized accelerators like the Apple Neural Engine and Google EdgeTPU."
"MobileNetV4-Conv models offer exceptional hardware compatibility and efficiency. This success highlights the strength of our UIB block, enhanced NAS recipe, and carefully designed search space."