核心概念
합성 캡션을 활용하여 기존 및 새로운 객체에 대한 풍부한 설명을 제공하고, 이를 쌍곡 기하학 기반의 계층적 시각-언어 학습을 통해 효과적으로 학습함으로써 오픈 월드 탐지 성능을 향상시킨다.
要約
이 논문은 오픈 월드 객체 탐지 문제를 다룹니다. 오픈 월드 탐지는 기존 객체 클래스 레이블뿐만 아니라 자유 형식 텍스트로 표현된 새로운 객체도 탐지할 수 있어야 합니다.
논문의 주요 내용은 다음과 같습니다:
-
사전 학습된 비전-언어 모델(VLM)을 활용하여 합성 캡션을 생성하고, 이를 통해 기존 및 새로운 객체에 대한 풍부한 설명을 제공합니다.
-
합성 캡션의 잡음 문제를 해결하기 위해 시각 특징과 캡션 임베딩을 계층적 구조로 정렬하는 새로운 쌍곡 학습 방법을 제안합니다.
-
다양한 오픈 월드 탐지 벤치마크 데이터셋(COCO, LVIS, ODiW, RefCOCO)에서 기존 최신 방법들을 능가하는 성능을 보여줍니다.
-
제안 방법의 설계 원리와 효과를 심층적으로 분석하는 실험을 수행합니다.
統計
합성 캡션을 활용하면 기존 및 새로운 객체에 대한 풍부한 설명을 제공할 수 있다.
제안 방법은 COCO 데이터셋에서 mAP 48.4%, LVIS 데이터셋에서 mAP 31.3%, ODiW 데이터셋에서 mAP 45.2%의 성능을 달성했다.
제안 방법은 RefCOCO/+/g 데이터셋에서 최대 92.09%의 Top-1 정확도를 달성했다.
引用
"합성 캡션을 활용하여 기존 및 새로운 객체에 대한 풍부한 설명을 제공할 수 있다."
"합성 캡션의 잡음 문제를 해결하기 위해 시각 특징과 캡션 임베딩을 계층적 구조로 정렬하는 새로운 쌍곡 학습 방법을 제안한다."
"제안 방법은 다양한 오픈 월드 탐지 벤치마크 데이터셋에서 기존 최신 방법들을 능가하는 성능을 보여준다."