이 논문은 참조 이미지 분할 문제를 다룹니다. 참조 이미지 분할은 자연어 표현을 통해 이미지에서 특정 객체를 분할하는 작업입니다. 주요 과제는 텍스트 특징에서 시각 특징으로 세부적인 의미 정보를 효과적으로 전파하는 것입니다.
저자들은 다음과 같은 접근법을 제안합니다:
언어 질의 생성 모듈: 입력 문장의 다양한 측면을 강조하는 여러 개의 언어 질의를 생성하여 디코더 과정에서 언어 정보 왜곡을 줄입니다.
보정 디코더(CDec): 각 디코더 층에서 새로운 언어 질의를 생성하여 언어 특징을 지속적으로 보정함으로써 언어 정보 왜곡을 방지합니다.
언어 재구성 모듈: 디코더의 마지막 층에서 생성된 질의를 사용하여 입력 언어를 재구성하고 재구성 손실을 계산함으로써 언어 정보 손실 또는 왜곡을 방지합니다.
실험 결과, 제안 방법인 CRFormer가 RefCOCO, RefCOCO+, G-Ref 데이터셋에서 최신 기술 대비 우수한 성능을 보였습니다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問