Khái niệm cốt lõi
자기지도 비전 트랜스포머의 국소 표현 능력을 비교 분석하여, 대조 학습 기반 방법이 마스킹 기반 방법보다 더 보편적인 패치 표현을 생성한다는 것을 발견했다.
Tóm tắt
이 논문은 다양한 자기지도 비전 트랜스포머(ViT)의 국소 표현 능력을 비교 분석한다. 언어 모델에서 영감을 받아, 저자들은 ViT가 미세 조정 없이도 다양한 컴퓨터 비전 작업을 수행할 수 있는 능력을 조사한다. 저자들은 패치 수준의 표현 품질을 평가하기 위한 프레임워크를 설계했으며, 이를 통해 다음과 같은 발견을 했다:
- 대조 학습 기반 방법(DINO)은 마스킹 기반 방법(MAE)보다 더 보편적인 패치 표현을 생성한다. DINO의 표현은 추가 미세 조정 없이도 다운스트림 작업에 바로 적용할 수 있다.
- MAE와 같은 마스킹 기반 방법의 표현은 높은 분산 특징을 가지고 있어, k-NN과 같은 거리 기반 알고리즘에 해를 끼친다. 이러한 고분산 특징을 제거하면 MAE와 Scale-MAE의 k-NN 성능이 크게 향상된다.
- DINOv2는 두 배 이상 많은 데이터로 사전 학습되었지만, 일부 객체 인스턴스 검색 설정에서는 DINO보다 성능이 떨어진다.
Thống kê
마스킹 기반 모델의 표현에는 약 200개의 데이터셋 독립적 특징이 있으며, 이는 고분산을 가지고 있지만 고려한 다운스트림 작업에는 유용한 정보를 포함하고 있지 않다.
이러한 고분산 특징을 제거하면 MAE와 Scale-MAE의 k-NN 성능이 크게 향상된다.
Trích dẫn
"대조 학습 기반 방법은 마스킹 기반 방법보다 더 보편적인 패치 표현을 생성한다."
"MAE와 같은 마스킹 기반 모델의 표현에는 높은 분산 특징이 있으며, 이는 k-NN과 같은 거리 기반 알고리즘에 해를 끼친다."
"DINOv2는 두 배 이상 많은 데이터로 사전 학습되었지만, 일부 객체 인스턴스 검색 설정에서는 DINO보다 성능이 떨어진다."