ReMamber는 맘바 트위스터 블록을 통해 이미지와 텍스트 간의 상호작용을 효과적으로 모델링하고 융합하여, 참조 이미지 분할 작업에서 최신 성과를 달성한다.
다중 모달 의미 이해를 위해 단일 모달 특화 프롬프트와 다중 모달 융합 프롬프트를 혼합하고, 블록 기반 프롬프트 융합 메커니즘을 도입하여 단일 모달 특화와 다중 모달 융합 간의 균형을 달성한다.
다중 모달 데이터의 부족한 가용성과 기존 모델의 한계를 극복하기 위해, 통합 비전-언어 모델을 활용한 새로운 다중 모달 프롬프트 학습 프레임워크를 제안한다.