이 논문은 참조 이미지 분할 성능을 향상시키기 위한 새로운 프레임워크 VATEX를 제안한다. 참조 이미지 분할은 자연어 설명을 바탕으로 픽셀 단위의 분할 마스크를 생성하는 과제이다. 기존 방법들은 주로 시각적 특징에 의존하여 분할 마스크를 생성하였지만, 이는 복잡한 시나리오에서 텍스트 프롬프트가 모호하거나 문맥 의존적인 경우 최적의 결과를 얻기 어렵다.
VATEX는 다음과 같은 세 가지 핵심 구성 요소를 통해 이러한 문제를 해결한다:
CLIP Prior: CLIP 모델의 시각-언어 정렬을 활용하여 객체 중심의 시각적 히트맵을 생성하고, 이를 초기 쿼리로 사용한다.
Contextual Multimodal Decoder (CMD): 시각-언어 상호작용을 계층적으로 모델링하여 비전 인식 텍스트 특징을 생성한다.
Meaning Consistency Constraint (MCC): 동일한 객체를 참조하는 다양한 텍스트 표현 간의 일관성을 보장하는 문장 수준의 대조 학습 기법을 적용한다.
이러한 접근법을 통해 VATEX는 RefCOCO, RefCOCO+, G-Ref 벤치마크 데이터셋에서 기존 최신 기법 대비 3-4% 향상된 성능을 달성하였다. 또한 Ref-YouTube-VOS와 Ref-DAVIS 2017 데이터셋에서도 최신 수준의 성과를 보였다.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Hai Nguyen-T... klokken arxiv.org 04-15-2024
https://arxiv.org/pdf/2404.08590.pdfDypere Spørsmål