Core Concepts
언어 표현과 이미지 정보 간의 정밀한 연관 관계를 학습하여 복잡한 언어 표현에 대한 이미지 객체 분할 성능을 향상시킴
Abstract
본 논문은 Referring Image Segmentation (RIS) 문제를 다룹니다. RIS는 자연어 표현을 통해 이미지 내 특정 객체를 분할하는 과제로, 언어와 이미지 간의 정밀한 정렬이 핵심 과제입니다.
기존 RIS 모델들은 다음과 같은 한계를 가지고 있습니다:
문장 수준의 언어 특징만을 사용하여 언어-이미지 정렬을 수행하므로, 단어-객체 간 정밀한 연관 관계를 학습하지 못함
단어-객체 간 정밀한 연관 관계를 학습하기 위한 명시적인 감독 신호가 부족함
이를 해결하기 위해 본 논문은 Mask Grounding이라는 새로운 보조 과제를 제안합니다. Mask Grounding은 언어 표현 내 임의로 가려진 단어들을 이미지 정보와 분할 정보를 활용하여 예측하도록 학습함으로써, 단어-객체 간 정밀한 연관 관계를 학습할 수 있습니다.
또한 Cross-modal Alignment Module과 Cross-modal Alignment Loss를 추가로 제안하여, 언어와 이미지 간의 전반적인 정렬을 향상시킵니다.
이러한 기술들을 종합한 MagNet (Mask-grounded Network) 모델은 기존 최신 기술 대비 큰 성능 향상을 보여줍니다.
Stats
복잡한 객체 간 관계를 이해하기 위해서는 정밀한 언어-이미지 연관 관계 학습이 필요함
드물게 사용되거나 모호한 표현을 이해하기 위해서도 정밀한 언어-이미지 연관 관계 학습이 필요함
Quotes
"언어 표현과 이미지 정보 간의 정밀한 연관 관계를 학습하여 복잡한 언어 표현에 대한 이미지 객체 분할 성능을 향상시킴"
"Mask Grounding은 언어 표현 내 임의로 가려진 단어들을 이미지 정보와 분할 정보를 활용하여 예측하도록 학습함으로써, 단어-객체 간 정밀한 연관 관계를 학습할 수 있음"