ReMamber는 맘바 트위스터 블록을 통해 이미지와 텍스트 간의 상호작용을 효과적으로 모델링하고 융합하여, 참조 이미지 분할 작업에서 최신 성과를 달성한다.
CLIP의 이미지-텍스트 정렬을 활용하여 참조 이미지 분할 성능을 향상시킬 수 있다.
본 논문은 언어 정보 왜곡을 방지하고 효과적인 언어-비전 정보 전파를 위해 언어 질의 생성, 언어 보정 디코더, 언어 재구성 모듈을 제안한다.
참조 이미지 분할 성능을 향상시키기 위해 비전 인식 텍스트 특징을 활용하는 새로운 프레임워크를 제안한다.
상호 인식 주의 메커니즘을 통해 시각적 특징과 언어적 특징 간의 상호 관계를 모델링하고, 이를 활용하여 언어 표현과 일관된 정확한 분할 마스크를 생성한다.
단일 인코더 기반의 간단한 모델 구조를 통해 효율적이면서도 우수한 성능의 참조 이미지 분할 모델을 제안한다.