Core Concepts
최근 연구에서 비전-언어 모델(VLM)의 의사 레이블(pseudo label)을 활용하여 개방형 객체 탐지(OVD) 성능이 향상되었지만, 자기 학습(self-training) 기법은 잘 탐구되지 않았다. 본 연구에서는 OVD에 자기 학습을 적용할 때 발생하는 두 가지 문제점, 즉 의사 레이블의 잡음과 의사 레이블 분포의 잦은 변화를 해결하기 위해 SAS-Det를 제안한다. SAS-Det는 분할-융합 헤드(SAF head)와 주기적 업데이트 전략을 통해 이러한 문제를 해결하여 OVD 성능을 크게 향상시킨다.
Abstract
본 연구는 개방형 객체 탐지(OVD)에서 자기 학습(self-training) 기법을 적용할 때 발생하는 두 가지 문제점을 해결하기 위해 SAS-Det를 제안한다.
의사 레이블의 잡음 문제:
VLM(Vision-Language Model)에서 생성된 의사 레이블의 위치 정보가 부정확하여 탐지 성능을 저하시킴
기존 방법들은 단순히 의사 레이블의 신뢰도 점수로 필터링하여 이 문제를 해결하려 했지만, 이는 효과적이지 않음
의사 레이블 분포의 잦은 변화 문제:
자기 학습에서 일반적으로 사용되는 지수 이동 평균(EMA) 기반 교사 모델 업데이트가 OVD에서는 성능을 저하시킴
이는 OVD에서 타겟 클래스에 대한 ground truth가 없어 의사 레이블의 분포가 교사 모델에 의해 전적으로 결정되기 때문
이를 해결하기 위해 SAS-Det는 다음과 같은 두 가지 핵심 기법을 제안한다:
분할-융합 헤드(SAF head):
탐지 헤드를 폐쇄 브랜치(closed-branch)와 개방 브랜치(open-branch)로 분할
폐쇄 브랜치는 base 클래스의 ground truth로만 학습하여 의사 레이블의 잡음 영향을 최소화
개방 브랜치는 base와 novel 클래스의 레이블로 학습하여 보완적인 지식 습득
두 브랜치의 예측을 융합하여 성능 향상
주기적 교사 모델 업데이트:
교사 모델을 학생 모델로 자주 업데이트하는 것이 아니라 주기적으로 업데이트
이를 통해 의사 레이블 분포의 잦은 변화를 방지하여 안정적인 학습 가능
이러한 SAS-Det의 핵심 기법들은 COCO와 LVIS 벤치마크에서 최신 OVD 모델들을 크게 능가하는 성능을 보여준다.
Stats
의사 레이블의 위치 정보가 부정확하여 탐지 성능을 저하시킴
지수 이동 평균(EMA) 기반 교사 모델 업데이트가 OVD에서 성능을 저하시킴
Quotes
"Recent studies have shown promising performance in open-vocabulary object detection (OVD) by utilizing pseudo labels (PLs) from pretrained vision and language models (VLMs). However, teacher-student self-training, a powerful and widely used paradigm to leverage PLs, is rarely explored for OVD."
"We find such EMA updates degrade OVD models (see Table 4). Our hypothesis is that, unlike closed-set tasks, OVD provides no ground truth for target categories, and thus, the supervision for target categories is fully decided by the distribution of PLs predicted by the teacher."