Belangrijkste concepten
원격 감지 영상에서 CLIP 활성화 학생-교사 상호 학습 프레임워크를 통해 기존 범주를 넘어선 객체를 효과적으로 탐지할 수 있다.
Samenvatting
이 논문은 원격 감지 영상에서 개방형 어휘 객체 탐지 기술을 제안한다. 기존 객체 탐지기는 훈련 데이터에 포함된 범주만 탐지할 수 있지만, 제안하는 CastDet 프레임워크는 학생-교사 상호 학습 메커니즘을 통해 새로운 객체 범주를 지속적으로 발견하고 인식할 수 있다.
주요 내용은 다음과 같다:
- 원격 감지 영상의 특성상 객체 제안 생성과 유사 객체 구분이 어려워 기존 개방형 어휘 객체 탐지 방법을 직접 적용하기 어렵다. 이를 해결하기 위해 CastDet은 학생-교사 상호 학습 메커니즘을 활용한다.
- 학생 모델은 Faster R-CNN 기반의 객체 탐지기이며, 두 교사 모델(지역화 교사, 외부 교사)의 지도를 받아 학습한다. 지역화 교사는 안정적인 객체 제안을 생성하고, 외부 교사인 RemoteCLIP은 새로운 객체 범주를 인식한다.
- 동적 라벨 큐를 도입하여 외부 교사가 생성한 고품질 의사 라벨을 지속적으로 업데이트하고 학생 모델 학습에 활용한다.
- 실험 결과, CastDet은 기존 방법 대비 VisDroneZSD 데이터셋에서 23.7%/14.9% mAP 향상을 보였다.
Statistieken
기존 항공 영상 데이터셋은 자연 영상 데이터셋에 비해 크기와 범주 수가 매우 작다.
VisDroneZSD 데이터셋의 경우 20개 범주 중 16개가 기본 범주, 4개가 새로운 범주이다.
Citaten
"An increasingly massive number of remote-sensing images spurs the development of extensible object detectors that can detect objects beyond training categories without costly collecting new labeled data."
"To simultaneously generate high-quality proposals and pseudo-labels, we propose CastDet, a CLIP-activated student-teacher open-vocabulary object Detection framework."
"Our interactive self-learning mechanism facilitates a "flywheel effect" wherein the external teacher transfers knowledge to strengthen the localization teacher to discover potential regions of the "unseen" objects and identify their classes while the localization teacher, in turn, generates more accurate pseudo boxes for the external teacher to obtain more accurate pseudo-labels."