본 연구는 비전 트랜스포머 모델의 성능 향상을 위해 두 가지 핵심 기여를 제안한다.
첫째, 합성곱 주의 패치 임베딩(CAPE)을 통해 패치 과정에서의 특징 추출을 향상시킨다. CAPE는 채널 주의 모듈을 사용하여 특징 맵을 선택적으로 강조함으로써 MetaFormer 아키텍처의 성능을 개선할 수 있다. 실험 결과, CAPE는 Identity Mapping 토큰 혼합기와 Swin Transformer의 WMSA 토큰 혼합기에서 각각 0.5%와 0.4%의 정확도 향상을 보였다.
둘째, ParFormer 아키텍처를 제안한다. ParFormer는 지역 합성곱 토큰 혼합기와 전역 전치 자기 주의 토큰 혼합기를 병렬로 통합하여 지역 및 전역 의존성을 효과적으로 추출한다. 실험 결과, ParFormer는 ConvNeXt와 Swin Transformer보다 정확도가 높으며, 현재 최고의 하이브리드 트랜스포머 모델과 경쟁할 수 있는 수준의 ImageNet-1K 분류 성능을 달성했다. 구체적으로 11M, 23M, 34M 매개변수를 가진 ParFormer 모델 변형은 각각 80.4%, 82.1%, 83.1%의 Top-1 점수를 달성했다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Novendra Set... alle arxiv.org 03-25-2024
https://arxiv.org/pdf/2403.15004.pdfDomande più approfondite