Core Concepts
ReMamber는 맘바 트위스터 블록을 통해 이미지와 텍스트 간의 상호작용을 효과적으로 모델링하고 융합하여, 참조 이미지 분할 작업에서 최신 성과를 달성한다.
Abstract
본 논문은 참조 이미지 분할(Referring Image Segmentation, RIS) 작업을 위한 새로운 아키텍처인 ReMamber를 제안한다. RIS는 텍스트 설명을 바탕으로 이미지 내 특정 객체를 식별하고 분할하는 과정으로, 비주얼-언어 상호작용 이해가 핵심 과제이다.
ReMamber는 맘바(Mamba) 아키텍처를 기반으로 하며, 맘바 트위스터 블록을 핵심 구성 요소로 한다. 맘바 트위스터 블록은 다음과 같은 과정을 거친다:
비전-언어 상호작용 연산을 통해 이미지와 텍스트 간의 상호작용을 모델링한다.
이를 바탕으로 비주얼, 다중 모달, 텍스트 특징을 포함하는 하이브리드 특징 큐브를 생성한다.
채널 스캔과 공간 스캔을 순차적으로 적용하여 특징 큐브를 "트위스팅"함으로써 모달리티 간 상호작용을 강화한다.
ReMamber는 세 가지 주요 벤치마크 데이터셋에서 최신 성과를 달성했다. 또한 다른 융합 설계와의 비교 분석을 통해 맘바 트위스터의 우수성을 입증했다.
Stats
이미지와 텍스트 간 상호작용을 모델링하기 위해 유사도 행렬을 계산하고 이를 공간 차원으로 확장한다.
하이브리드 특징 큐브를 생성하기 위해 시각, 다중 모달, 텍스트 특징을 채널 차원으로 연결한다.
채널 스캔과 공간 스캔을 순차적으로 적용하여 특징 큐브를 "트위스팅"한다.
Quotes
"ReMamber는 맘바 트위스터 블록을 통해 이미지와 텍스트 간의 상호작용을 효과적으로 모델링하고 융합한다."
"맘바 트위스터 블록은 비전-언어 상호작용 연산, 하이브리드 특징 큐브 생성, 그리고 채널 및 공간 스캔을 통한 트위스팅 메커니즘을 포함한다."
"ReMamber는 세 가지 주요 벤치마크 데이터셋에서 최신 성과를 달성했다."