본 연구 논문에서는 컴퓨터 비전 작업의 성능 향상을 위해 컨볼루션 신경망(CNN)과 어텐션 메커니즘의 결합 방식을 재검토하고, 새로운 통합 방식인 GLMix를 제안합니다.
기존의 비전 백본은 CNN 또는 트랜스포머 기반으로, 공간 정보 모델링 방식에서 차이를 보입니다. CNN은 합성곱 연산을 사용하여 지역적인 특징을 효과적으로 추출하지만, receptive field가 제한적인 단점이 있습니다. 반면, 트랜스포머는 self-attention 메커니즘을 사용하여 전역적인 context를 모델링할 수 있지만, 입력 해상도에 따라 계산 복잡도가 기하급수적으로 증가하는 문제점이 있습니다.
이러한 문제를 해결하기 위해 최근에는 CNN과 어텐션 메커니즘을 결합한 하이브리드 비전 백본 연구가 활발히 진행되고 있습니다. 그러나 기존 연구들은 두 연산을 동일한 세분화 수준에서 적용하여 CNN의 효율성을 저해하는 문제점을 가지고 있었습니다.
본 논문에서 제안하는 GLMix는 컨볼루션과 어텐션을 서로 다른 세분화 수준에서 적용하여 두 연산의 장점을 극대화하고 효율성을 향상시키는 새로운 통합 방식입니다.
GLMix는 입력 이미지를 fine-grained regular grid와 coarse-grained semantic slots의 두 가지 표현으로 나타냅니다. 그리고 가벼운 컨볼루션을 사용하여 grid 표현에서 지역적인 특징을 추출하고, 무거운 어텐션 연산은 semantic slots에 적용하여 전역적인 context를 효율적으로 모델링합니다.
GLMix는 soft clustering과 dispatching 모듈을 사용하여 grid 표현과 semantic slots 표현을 연결합니다. Soft clustering은 입력 특징 맵을 고정된 수의 semantic slots으로 그룹화하고, dispatching은 변환된 semantic slots을 원래의 공간 위치로 다시 매핑합니다. 이러한 과정을 통해 지역적인 특징과 전역적인 context 정보를 효과적으로 융합할 수 있습니다.
연구팀은 GLMix 블록을 기반으로 Swin-Tiny-Layout 아키텍처를 사용하는 GLNet-STL 모델을 구축하여 ImageNet-1k 데이터셋에서 82.5%의 top-1 정확도를 달성했습니다. 또한, 최신 아키텍처 디자인을 적용하여 GLNet-4G/9G/16G 모델을 개발하여 기존 방법들보다 우수한 성능을 달성했습니다.
본 연구는 컨볼루션과 어텐션 메커니즘의 효율적인 결합 방식을 제시하여 컴퓨터 비전 분야의 성능 향상에 기여할 것으로 기대됩니다. 특히, GLMix는 적은 계산량으로도 높은 성능을 달성할 수 있어 실시간 이미지 처리 및 분석이 필요한 다양한 분야에 활용될 수 있을 것으로 예상됩니다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問