이 논문은 오픈 월드 객체 탐지 문제를 다룹니다. 오픈 월드 탐지는 기존 객체 클래스 레이블뿐만 아니라 자유 형식 텍스트로 표현된 새로운 객체도 탐지할 수 있어야 합니다.
논문의 주요 내용은 다음과 같습니다:
사전 학습된 비전-언어 모델(VLM)을 활용하여 합성 캡션을 생성하고, 이를 통해 기존 및 새로운 객체에 대한 풍부한 설명을 제공합니다.
합성 캡션의 잡음 문제를 해결하기 위해 시각 특징과 캡션 임베딩을 계층적 구조로 정렬하는 새로운 쌍곡 학습 방법을 제안합니다.
다양한 오픈 월드 탐지 벤치마크 데이터셋(COCO, LVIS, ODiW, RefCOCO)에서 기존 최신 방법들을 능가하는 성능을 보여줍니다.
제안 방법의 설계 원리와 효과를 심층적으로 분석하는 실험을 수행합니다.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Fanjie Kong,... klo arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.05016.pdfSyvällisempiä Kysymyksiä