Core Concepts
본 논문은 기존 비전 트랜스포머의 높은 계산 복잡도 문제를 해결하기 위해 계층적 멀티헤드 자기 주의 메커니즘(H-MHSA)을 제안한다. H-MHSA는 이미지를 작은 패치로 나누어 지역적 관계를 모델링하고, 이를 다시 병합하여 전역적 관계를 모델링함으로써 효율적으로 전역적 및 지역적 정보를 모두 활용할 수 있다.
Abstract
본 논문은 비전 트랜스포머의 높은 계산 복잡도 문제를 해결하기 위해 계층적 멀티헤드 자기 주의 메커니즘(H-MHSA)을 제안한다.
이미지를 작은 패치로 나누어 지역적 관계를 모델링한다. 이를 위해 각 패치에 대해 자기 주의 연산을 수행한다.
작은 패치를 병합하여 전역적 관계를 모델링한다. 이를 위해 병합된 패치에 대해 자기 주의 연산을 수행한다.
지역적 및 전역적 주의 특징을 결합하여 강력한 표현력을 가진 특징을 생성한다.
H-MHSA를 활용하여 HAT-Net이라는 계층적 주의 기반 트랜스포머 네트워크를 구축한다.
HAT-Net을 이미지 분류, 의미 분할, 객체 탐지, 인스턴스 분할 등 다양한 비전 작업에 적용하여 우수한 성능을 보인다.
Stats
이미지를 작은 패치로 나누어 지역적 관계를 모델링하면 계산 복잡도가 HWC(4C+2G^2_1)로 감소한다.
병합된 패치에 대해 전역적 관계를 모델링하면 계산 복잡도가 2HW/G^2_2 * C(C+HW)로 감소한다.
Quotes
"H-MHSA는 이미지를 작은 패치로 나누어 지역적 관계를 모델링하고, 이를 다시 병합하여 전역적 관계를 모델링함으로써 효율적으로 전역적 및 지역적 정보를 모두 활용할 수 있다."
"H-MHSA는 계산 복잡도와 메모리 사용량을 크게 줄일 수 있다."