이 논문은 오픈 월드 엔티티 분할이라는 새로운 컴퓨터 비전 과제를 다룹니다. 기존의 분할 방법들은 사전 정의된 클래스에 제한되어 있지만, 오픈 월드 엔티티 분할은 클래스에 구애받지 않고 이미지 내의 의미 있는 시각적 엔티티를 분할하는 것을 목표로 합니다.
논문에서 제안하는 SOHES 방법은 다음 3단계로 구성됩니다:
자기 탐색 단계: 사전 학습된 자기 지도 표현 DINO를 활용하여 이미지 패치들을 시각적 유사성과 공간적 인접성 기반으로 클러스터링하여 초기 의사 레이블을 생성합니다.
자기 지도 단계: 초기 의사 레이블을 이용하여 분할 모델을 학습시킵니다. 이 모델은 DINO 백본, ViT-Adapter, Mask2Former로 구성되며, 엔티티와 그 구성 부품들의 계층적 관계를 예측할 수 있습니다.
자기 교정 단계: 교사-학생 상호 학습 프레임워크를 활용하여 초기 의사 레이블의 노이즈를 줄이고 모델의 성능을 지속적으로 향상시킵니다.
실험 결과, SOHES는 다양한 데이터셋에서 기존 최신 성능을 크게 개선하며, 감독 학습 기반 모델과의 성능 격차를 상당 부분 좁혔습니다. 또한 엔티티와 부품들의 계층적 구조를 학습하여 보다 포괄적이고 유연한 시각적 이해를 제공합니다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Shengcao Cao... at arxiv.org 04-19-2024
https://arxiv.org/pdf/2404.12386.pdfDeeper Inquiries