核心概念
본 논문에서는 대규모 이미지 레벨 데이터셋과 WordNet의 언어 계층 구조를 활용하여 기존 객체 감지 모델의 일반화 성능을 향상시키는 DetLH(Detector with Language Hierarchy) 모델을 제안합니다.
要約
DetLH: 언어 계층 구조를 통한 오픈 보카불러리 객체 감지 (Open-Vocabulary Object Detection via Language Hierarchy)
본 논문에서는 다양한 객체 감지 작업에서 우수한 성능을 달성하는 DetLH(Detector with Language Hierarchy)라는 새로운 객체 감지 모델을 소개합니다. DetLH는 언어 계층 구조를 활용하여 기존 객체 감지 모델의 일반화 능력을 향상시키는 두 가지 핵심 기술인 LHST(Language Hierarchical Self-training)와 LHPG(Language Hierarchical Prompt Generation)를 결합합니다.
본 연구의 주요 목표는 대규모 이미지 레벨 데이터셋을 활용하여 다양한 객체 감지 작업에서 높은 성능을 달성할 수 있는 일반화 가능한 객체 감지 모델을 개발하는 것입니다.
1. LHST (Language Hierarchical Self-training)
LHST는 WordNet의 언어 계층 구조를 사용하여 이미지 레벨 레이블을 확장하고, 확장된 레이블과 자기 학습 간의 공동 정규화를 가능하게 합니다.
구체적으로, LHST는 WordNet의 계층 구조를 사용하여 이미지 레벨 레이블(예: "수생 포유류")을 보다 구체적인 레이블(예: "물범", "돌고래", "바다코끼리" 등)로 확장합니다.
확장된 레이블은 완벽하지 않을 수 있지만, 자기 학습 과정에서 더 풍부한 감독을 제공하여 이미지-박스 레이블 불일치 문제를 완화합니다.
자기 학습은 예측된 신뢰도에 따라 확장된 레이블을 평가하고 선택할 수 있도록 하여 더 정확한 의사 레이블을 생성합니다.
2. LHPG (Language Hierarchical Prompt Generation)
LHPG는 WordNet의 언어 계층 구조를 프롬프트 생성 프로세스에 도입하여 학습 및 테스트 간의 어휘 격차를 해소합니다.
LHPG는 CLIP 언어 인코더를 활용하여 테스트 개념과 WordNet synset 간의 임베딩 거리를 측정한 다음 가장 일치하는 WordNet synset에서 주어진 테스트 개념에 대한 프롬프트를 생성합니다.
이러한 방식으로 LHPG에 의해 생성된 테스트 프롬프트는 WordNet에 의해 표준화되었으며 LHST를 통해 WordNet 정보로 학습된 제안된 감지기와 잘 일치합니다.
즉, LHST와 LHPG의 조합은 WordNet을 학습 및 테스트 어휘 간의 격차를 해소하는 표준 및 중간 어휘로 활용하여 더 나은 프롬프트를 생성하고 다운스트림 애플리케이션에서 더 나은 감지 성능을 제공합니다.