核心概念
LiFT는 사전 학습된 비전 트랜스포머 특징을 간단하고 효율적으로 밀도 높은 특징으로 변환하는 자기지도 학습 기법이다.
摘要
이 논문은 비전 트랜스포머(ViT) 특징의 공간적 해상도 문제를 해결하기 위해 LiFT라는 간단하고 효율적인 특징 변환 기법을 제안한다. LiFT는 사전 학습된 ViT 모델의 특징을 입력으로 받아 이를 밀도 높은 특징으로 변환한다.
LiFT의 주요 특징은 다음과 같다:
- 간단한 구조와 자기지도 학습 방식으로 효율적으로 학습 가능
- 사전 학습된 ViT 모델의 특징을 변환하므로 추가 학습 없이 다양한 작업에 적용 가능
- 특징 밀도 향상을 위해 ViT 모델 자체를 변경하지 않고 별도의 모듈로 구현
- 실험 결과 키포인트 매칭, 비디오 객체 분할, 비지도 객체 발견 등 다양한 작업에서 성능 향상
LiFT는 ViT 특징의 공간적 해상도를 높이는 동시에 계산 비용도 크게 증가시키지 않는다. 이를 통해 ViT 모델의 장점을 유지하면서도 밀도 높은 특징을 활용할 수 있다.
統計資料
비전 트랜스포머 모델의 특징 맵 크기는 입력 이미지 크기에 비해 매우 작다.
비전 트랜스포머 모델의 계산량은 토큰 수의 제곱에 비례한다.
입력 이미지 크기를 늘리거나 토큰 크기를 줄이면 특징 밀도를 높일 수 있지만, 계산량이 크게 증가한다.
引述
"ViTs typically convert images into a very coarse grid of image patches (or tokens) before applying transformer layers. This allows ViTs to learn increasingly powerful patch-wise representations in successive layers [46]. The downside of this design is that despite being able to learn powerful representations, ViTs often lack spatial granularity in their features due to the low resolution of the token/patch grid."
"LiFT provides an easy way to unlock the benefits of denser feature arrays for a fraction of the computational cost."