핵심 개념
본 연구는 합성곱 주의 패치 임베딩(CAPE)을 통해 패치 과정에서의 특징 추출을 향상시키고, 지역 합성곱 토큰 혼합기와 전역 전치 자기 주의 토큰 혼합기를 병렬로 통합하여 지역 및 전역 의존성을 효과적으로 추출하는 ParFormer 아키텍처를 제안한다.
초록
본 연구는 비전 트랜스포머 모델의 성능 향상을 위해 두 가지 핵심 기여를 제안한다.
첫째, 합성곱 주의 패치 임베딩(CAPE)을 통해 패치 과정에서의 특징 추출을 향상시킨다. CAPE는 채널 주의 모듈을 사용하여 특징 맵을 선택적으로 강조함으로써 MetaFormer 아키텍처의 성능을 개선할 수 있다. 실험 결과, CAPE는 Identity Mapping 토큰 혼합기와 Swin Transformer의 WMSA 토큰 혼합기에서 각각 0.5%와 0.4%의 정확도 향상을 보였다.
둘째, ParFormer 아키텍처를 제안한다. ParFormer는 지역 합성곱 토큰 혼합기와 전역 전치 자기 주의 토큰 혼합기를 병렬로 통합하여 지역 및 전역 의존성을 효과적으로 추출한다. 실험 결과, ParFormer는 ConvNeXt와 Swin Transformer보다 정확도가 높으며, 현재 최고의 하이브리드 트랜스포머 모델과 경쟁할 수 있는 수준의 ImageNet-1K 분류 성능을 달성했다. 구체적으로 11M, 23M, 34M 매개변수를 가진 ParFormer 모델 변형은 각각 80.4%, 82.1%, 83.1%의 Top-1 점수를 달성했다.
통계
본 연구의 ParFormer 모델 변형은 11M, 23M, 34M 매개변수를 가지며, ImageNet-1K 분류 테스트에서 각각 80.4%, 82.1%, 83.1%의 Top-1 점수를 달성했다.
ParFormer-B1 모델은 ResNet-18 모델보다 6% 및 3.7% 적은 매개변수와 FLOPs를 가지면서도 COCO 객체 탐지 및 인스턴스 분할 테스트에서 각각 4.8과 4.0 높은 box AP와 mask AP 점수를 달성했다.
인용구
"본 연구는 합성곱 주의 패치 임베딩(CAPE)을 통해 패치 과정에서의 특징 추출을 향상시키고, 지역 합성곱 토큰 혼합기와 전역 전치 자기 주의 토큰 혼합기를 병렬로 통합하여 지역 및 전역 의존성을 효과적으로 추출하는 ParFormer 아키텍처를 제안한다."
"실험 결과, ParFormer는 ConvNeXt와 Swin Transformer보다 정확도가 높으며, 현재 최고의 하이브리드 트랜스포머 모델과 경쟁할 수 있는 수준의 ImageNet-1K 분류 성능을 달성했다."