이 논문은 참조 이미지 분할(Referring Image Segmentation, RIS) 문제를 다룬다. RIS는 자연어 표현을 기반으로 이미지의 특정 영역을 분할하는 것을 목표로 한다. 기존 방법들은 시각적 특징과 언어적 특징을 융합하여 다중 모달 특징을 생성하고, 이를 마스크 디코더에 입력하여 분할 마스크를 예측한다. 그러나 이러한 방법들은 다중 모달 특징이 여전히 시각적 특징에 의해 주도되어, 언어 표현과 일관되지 않은 분할 결과를 생성할 수 있다.
이 논문에서는 RISAM이라는 새로운 RIS 방법을 제안한다. RISAM은 상호 인식 주의 메커니즘을 활용하여 시각적 특징과 언어적 특징 간의 상호 관계를 모델링한다. 구체적으로, 시각 유도 주의 메커니즘은 각 이미지 영역에 대한 언어 표현의 중요도를 계산하여 언어 인식 시각 특징을 생성한다. 반대로, 언어 유도 주의 메커니즘은 각 단어에 대한 대응 이미지 영역의 중요도를 계산하여 시각 인식 언어 특징을 생성한다. 이렇게 생성된 상호 인식 특징은 마스크 디코더에 추가적인 언어 정보로 활용되어, 언어 표현과 일관된 정확한 분할 마스크를 생성한다.
또한 RISAM은 SAM(Segment Anything Model)의 강력한 지식을 매개 효율적 미세 조정 프레임워크를 통해 RIS 분야에 전이한다. 이를 통해 일반화 능력을 유지하면서도 우수한 성능을 달성한다.
실험 결과, RISAM은 RefCOCO, RefCOCO+, G-Ref 벤치마크 데이터셋에서 기존 최신 방법들을 능가하는 성능을 보였다. 또한 일반화 능력과 다중 객체 분할 능력에서도 우수한 성능을 나타냈다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問