이 논문은 비전 트랜스포머(ViT) 특징의 공간적 해상도를 향상시키는 간단하고 효율적인 자기지도 학습 기법인 LiFT(Lightweight Feature Transform)를 제안한다.
ViT는 강력한 표현력을 가지지만 낮은 공간 해상도로 인해 밀집 및 지역 작업에 적합하지 않다. LiFT는 ViT 특징에 추가로 합성곱 기반 이미지 특징을 융합하여 높은 밀도의 특징을 생성한다. LiFT는 간단한 자기지도 학습 목적으로 빠르게 학습할 수 있으며, 추가 비용 없이 ViT 특징의 성능을 크게 향상시킨다.
실험 결과, LiFT는 키포인트 대응, 비디오 객체 분할, 비지도 객체 발견, COCO 객체 탐지 및 분할 등 다양한 밀집 및 지역 작업에서 기존 방법들을 크게 능가하는 성능을 보였다. 또한 LiFT는 특징의 스케일 불변성 향상과 객체 경계 정보 향상 등의 긍정적인 특성을 가지고 있다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania