이 논문은 비전 트랜스포머(ViT) 특징의 공간적 해상도를 향상시키는 간단하고 효율적인 자기지도 학습 기법인 LiFT(Lightweight Feature Transform)를 제안한다.
ViT는 강력한 표현력을 가지지만 낮은 공간 해상도로 인해 밀집 및 지역 작업에 적합하지 않다. LiFT는 ViT 특징에 추가로 합성곱 기반 이미지 특징을 융합하여 높은 밀도의 특징을 생성한다. LiFT는 간단한 자기지도 학습 목적으로 빠르게 학습할 수 있으며, 추가 비용 없이 ViT 특징의 성능을 크게 향상시킨다.
실험 결과, LiFT는 키포인트 대응, 비디오 객체 분할, 비지도 객체 발견, COCO 객체 탐지 및 분할 등 다양한 밀집 및 지역 작업에서 기존 방법들을 크게 능가하는 성능을 보였다. 또한 LiFT는 특징의 스케일 불변성 향상과 객체 경계 정보 향상 등의 긍정적인 특성을 가지고 있다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor