핵심 개념
본 논문에서는 연속적인 회전 및 변환 등변성을 갖춘 최초의 비전 트랜스포머 모델인 Harmformer를 제안합니다. Harmformer는 하모닉 컨볼루션에서 영감을 받은 등변성 자기 주의 메커니즘을 사용하여 이미지의 회전 및 변환에 관계없이 일관된 특징 표현을 학습합니다.
초록
Harmformer: 연속 회전-변환 등변성을 위한 하모닉 네트워크와 트랜스포머의 만남
본 연구는 컴퓨터 비전 분야에서 이미지의 회전 및 변환에 강인한 특징 표현을 학습하는 것을 목표로 합니다. 이를 위해 연속적인 회전 및 변환 등변성을 갖춘 새로운 비전 트랜스포머 모델인 Harmformer를 제안합니다.
Harmformer는 크게 두 부분으로 구성됩니다. 첫 번째 부분은 하모닉 네트워크 기반의 스템 단계로, 입력 이미지의 해상도를 줄이고 회전 등변성을 갖는 특징 맵을 생성합니다. 두 번째 부분은 하모닉 인코더로, 스템 단계에서 생성된 특징 맵을 입력받아 연속적인 회전 및 변환 등변성을 유지하면서 전역적인 관계를 학습합니다. 하모닉 인코더는 하모닉 컨볼루션에서 영감을 받은 새로운 자기 주의 메커니즘을 사용하여 회전 등변성을 유지합니다.
#### 주요 특징
하모닉 컨볼루션: 회전 등변성을 갖는 특징 맵을 생성하기 위해 하모닉 함수를 기반으로 하는 컨볼루션 연산을 사용합니다.
등변성 자기 주의: 하모닉 컨볼루션의 원리를 자기 주의 메커니즘에 적용하여 회전 등변성을 유지하면서 전역적인 관계를 학습합니다.
연속 회전 및 변환 등변성: 이미지의 회전 및 변환에 관계없이 일관된 특징 표현을 학습합니다.