이 논문은 자기지도 학습 특징을 활용하여 비지도 의미 분할 문제를 해결하는 방법을 제안한다.
먼저, 자기지도 학습 모델인 DINO와 DINOv2를 사용하여 이미지 특징을 추출한다. 이 특징들의 주성분 분석을 통해 의미 있는 마스크 제안(PriMaPs)을 생성한다. 이 마스크 제안들을 활용하여 클래스 프로토타입을 학습하는 PriMaPs-EM 최적화 기법을 제안한다.
PriMaPs-EM은 간단한 구조와 최소한의 후처리만으로도 다양한 자기지도 학습 특징과 데이터셋에서 일관되게 우수한 성능을 보인다. 또한 기존 최신 비지도 의미 분할 방법들과 상호보완적으로 동작하여 성능을 더욱 향상시킬 수 있다.
실험 결과, PriMaPs-EM은 Cityscapes, COCO-Stuff, Potsdam-3 데이터셋에서 기존 방법들 대비 일관되게 높은 성능을 보였다. 특히 DINO와 DINOv2 특징을 활용할 때 우수한 결과를 얻었다.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Oliver Hahn,... klokken arxiv.org 04-26-2024
https://arxiv.org/pdf/2404.16818.pdfDypere Spørsmål