이 논문은 임의의 모달리티(RGB, RGB-D, RGB-T 등)에서 두드러진 객체를 탐지하는 임의 모달리티 두드러진 객체 탐지(AM SOD) 작업을 다룬다.
먼저, 모달리티 적응형 특징 추출기(MAFE)를 제안한다. MAFE는 모달리티 프롬프트를 이용하여 입력 모달리티의 특성에 따라 특징 공간을 적응적으로 조정할 수 있다. 이를 통해 다양한 모달리티 간 차이를 효과적으로 극복할 수 있다. 또한 모달리티 변환 대비 손실(MTC 손실)을 통해 모달리티 프롬프트를 모달리티 구분이 잘 되도록 학습한다.
다음으로, 채널 기반 및 공간 기반 융합 하이브리드(CSFH) 전략을 제안한다. CSFH는 채널 기반 동적 융합 모듈(CDFM)과 공간 기반 동적 융합 모듈(SDFM)을 활용하여 다양한 수의 모달리티로부터 보완적인 의미 정보와 세부 정보를 효과적으로 융합한다. 또한 CSFH는 특징의 수준에 따라 CDFM과 SDFM을 선별적으로 적용하여 보완적 정보를 더욱 효과적으로 활용한다.
실험 결과, 제안한 모달리티 적응형 트랜스포머(MAT)는 기존 모델들에 비해 다양한 모달리티 조합에서 두드러진 객체 탐지 성능이 크게 향상되었음을 보여준다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問