이 논문에서는 Caterpillar라는 새로운 순수 MLP 아키텍처를 제안한다. Caterpillar는 기존 CNN 및 ViT 모델의 단점을 극복하고자 한다.
CNN은 지역적 특징을 잘 모델링할 수 있지만 전역적 특징을 모델링하는 데 어려움이 있다. ViT는 전역적 특징을 잘 모델링할 수 있지만 계산 복잡도가 높다.
Caterpillar는 Shifted-Pillars-Concatenation (SPC) 모듈을 제안하여 지역적 특징을 효과적으로 모델링한다. SPC 모듈은 입력 이미지를 4개의 이웃 맵으로 변환하고 이를 선형 변환과 연결을 통해 병렬적으로 처리한다.
Caterpillar는 SPC 모듈과 sparse-MLP (sMLP) 모듈을 결합하여 지역적 특징과 전역적 특징을 효과적으로 모델링한다.
실험 결과, Caterpillar는 소규모 이미지 분류 벤치마크와 ImageNet-1K 데이터셋에서 우수한 성능을 보였다. 또한 Caterpillar는 우수한 확장성과 전이 학습 능력을 보였다.
전반적으로 Caterpillar는 CNN과 ViT의 단점을 극복하고 지역적 특징과 전역적 특징을 효과적으로 모델링할 수 있는 새로운 순수 MLP 아키텍처이다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問