참조 이미지 분할 작업의 성능을 향상하기 위해, 본 논문에서는 네거티브 마이닝 모자이크 증강(NeMo)이라는 새로운 데이터 증강 기법을 제안합니다. NeMo는 이미지의 시각적 복잡성을 증가시켜 모델이 참조 표현과 시각적 요소 간의 미묘한 관계를 더 잘 이해하도록 훈련합니다.
EAVL은 비전-언어 정렬기를 통해 시각 및 언어 특징을 명시적으로 정렬하여 텍스트-픽셀 세밀 상관 관계를 효과적으로 해결하는 새로운 참조 이미지 분할 프레임워크입니다.
단일 인코더 기반의 간단한 모델 구조를 통해 효율적이면서도 우수한 성능의 참조 이미지 분할 모델을 제안한다.
상호 인식 주의 메커니즘을 통해 시각적 특징과 언어적 특징 간의 상호 관계를 모델링하고, 이를 활용하여 언어 표현과 일관된 정확한 분할 마스크를 생성한다.
참조 이미지 분할 성능을 향상시키기 위해 비전 인식 텍스트 특징을 활용하는 새로운 프레임워크를 제안한다.
본 논문은 언어 정보 왜곡을 방지하고 효과적인 언어-비전 정보 전파를 위해 언어 질의 생성, 언어 보정 디코더, 언어 재구성 모듈을 제안한다.
CLIP의 이미지-텍스트 정렬을 활용하여 참조 이미지 분할 성능을 향상시킬 수 있다.
ReMamber는 맘바 트위스터 블록을 통해 이미지와 텍스트 간의 상호작용을 효과적으로 모델링하고 융합하여, 참조 이미지 분할 작업에서 최신 성과를 달성한다.