Core Concepts
인간의 시각 시스템에서 영감을 얻어, 다양한 해상도의 이미지 패치를 비전 트랜스포머의 입력으로 사용함으로써 성능을 향상시킬 수 있다.
Abstract
이 논문은 인간의 시각 시스템에서 영감을 얻어 Retina Vision Transformer (RetinaViT)라는 새로운 비전 트랜스포머 모델을 제안한다. 기존 비전 트랜스포머 모델은 단일 해상도의 이미지를 입력으로 사용하지만, RetinaViT는 다양한 해상도의 이미지 패치를 입력으로 사용한다.
구체적으로 RetinaViT는 원본 이미지를 다운스케일하여 생성한 이미지 피라미드의 패치들을 하나의 벡터로 연결하여 비전 트랜스포머의 입력으로 사용한다. 또한 패치의 상대적 수용 영역 크기를 반영하도록 포지션 임베딩을 조정하였다.
실험 결과, RetinaViT는 ImageNet-1K 데이터셋에서 기존 비전 트랜스포머 대비 3.3%의 성능 향상을 보였다. 이는 다중 스케일 정보를 활용함으로써 구조적 특징을 더 잘 포착할 수 있게 되었기 때문으로 분석된다.
RetinaViT는 수직 경로의 출현, 주의 집중 패턴 등 흥미로운 이론적 함의를 가지고 있으며, 향후 이에 대한 추가 연구가 필요할 것으로 보인다.
Stats
기존 ViT 대비 RetinaViT의 ImageNet-1K 데이터셋 상 top-1 정확도 향상: +3.3%
RetinaViT의 총 파라미터 수는 기존 ViT 대비 5.3% 증가
Quotes
"인간은 저주파와 고주파 공간 주파수 성분을 동시에 보고, 이 둘의 정보를 결합하여 시각 장면을 형성한다."
"기존 컴퓨터 비전 모델은 단일 해상도의 이미지를 입력으로 사용하지만, 인간 시각 시스템은 다양한 해상도에서 시각 정보를 처리한다."