본 논문은 기존 비전 트랜스포머의 높은 계산 복잡도 문제를 해결하기 위해 계층적 멀티헤드 자기 주의 메커니즘(H-MHSA)을 제안한다. H-MHSA는 이미지를 작은 패치로 나누어 지역적 관계를 모델링하고, 이를 다시 병합하여 전역적 관계를 모델링함으로써 효율적으로 전역적 및 지역적 정보를 모두 활용할 수 있다.