핵심 개념
본 논문은 교차 도메인 소량 샷 객체 탐지(CD-FSOD) 문제를 해결하기 위해 기존 오픈셋 객체 탐지기를 개선하는 방법을 제안한다. 제안 방법인 CD-ViTO는 학습 가능한 인스턴스 특징, 인스턴스 재가중, 도메인 프롬프터 등의 모듈을 통해 도메인 간 격차 문제를 해결하여 기존 오픈셋 탐지기 대비 큰 성능 향상을 달성한다.
초록
본 논문은 교차 도메인 소량 샷 객체 탐지(CD-FSOD) 문제를 다룬다. CD-FSOD는 소량의 레이블된 데이터로 새로운 도메인의 객체를 탐지하는 과제이다.
먼저, 저자들은 COCO 데이터셋을 소스 데이터로, 6개의 다양한 도메인 데이터셋을 타겟 데이터로 활용하여 CD-FSOD 벤치마크를 구축했다. 이 벤치마크를 통해 기존 객체 탐지 모델들이 도메인 간 격차로 인해 성능이 크게 저하됨을 확인했다.
이를 해결하기 위해 저자들은 기존 오픈셋 객체 탐지기인 DE-ViT를 개선한 CD-ViTO를 제안했다. CD-ViTO는 다음과 같은 핵심 모듈들을 포함한다:
- 학습 가능한 인스턴스 특징: 타겟 클래스 정보를 활용해 인스턴스 특징을 최적화하여 클래스 간 변별력을 높임
- 인스턴스 재가중: 경계가 명확한 인스턴스에 더 높은 가중치를 부여하여 클래스 프로토타입 구축 시 활용
- 도메인 프롬프터: 다양한 가상 도메인을 합성하여 모델의 도메인 강건성을 높임
실험 결과, CD-ViTO는 기존 오픈셋 탐지기 대비 큰 성능 향상을 보였으며, 다른 객체 탐지 모델들과 비교해서도 우수한 성능을 달성했다. 이를 통해 제안 방법이 CD-FSOD 문제를 효과적으로 해결할 수 있음을 입증했다.
통계
COCO 데이터셋은 스타일이 사실적이고, 클래스 간 변별력(ICV)이 크며, 경계가 명확(IB)한 특징을 가진다.
ArTaxOr 데이터셋은 스타일이 사실적이고, ICV가 작으며, IB가 약간 있다.
Clipart1k 데이터셋은 스타일이 카툰이고, ICV가 크며, IB가 약간 있다.
DIOR 데이터셋은 스타일이 항공 사진이고, ICV가 중간, IB가 약간 있다.
DeepFish 데이터셋은 스타일이 수중이고, ICV가 작(1개 클래스), IB가 중간이다.
NEU-DET 데이터셋은 스타일이 산업이고, ICV가 크며, IB가 심각하다.
UODD 데이터셋은 스타일이 수중이고, ICV가 작, IB가 심각하다.
인용구
"본 논문은 교차 도메인 소량 샷 객체 탐지(CD-FSOD) 문제를 다룬다."
"제안 방법인 CD-ViTO는 학습 가능한 인스턴스 특징, 인스턴스 재가중, 도메인 프롬프터 등의 모듈을 통해 도메인 간 격차 문제를 해결하여 기존 오픈셋 탐지기 대비 큰 성능 향상을 달성한다."