이 논문은 다양한 모달리티에서 두드러지는 객체를 탐지하는 새로운 작업인 "Arbitrary Modality Salient Object Detection (AM SOD)"을 제안한다. 기존의 SOD 모델들은 특정 유형의 입력 데이터(예: RGB, RGB-D, RGB-T)에 최적화되어 있어, 입력 데이터의 유형이 변경되면 성능이 저하되는 문제가 있다.
이를 해결하기 위해 저자들은 "Modality Switch Network (MSN)"이라는 새로운 모델을 제안한다. MSN은 다음과 같은 두 가지 핵심 모듈로 구성된다:
모달리티 스위치 특징 추출기(Modality Switch Feature Extractor, MSFE): MSFE는 입력 데이터의 모달리티 정보를 활용하여 각 모달리티에 적합한 특징을 추출할 수 있다. 이를 통해 다양한 모달리티의 입력 데이터에 효과적으로 대응할 수 있다.
동적 융합 모듈(Dynamic Fusion Module, DFM): DFM은 Transformer 구조를 활용하여 입력 데이터의 모달리티 수가 변화해도 효과적으로 특징을 융합할 수 있다. 이를 통해 입력 데이터의 모달리티 수 변화에 유연하게 대응할 수 있다.
또한 저자들은 AM SOD 연구를 위한 새로운 데이터셋인 AM-XD를 구축하였다. 실험 결과, 제안한 MSN 모델이 다양한 모달리티의 입력 데이터에서 두드러지는 객체를 효과적으로 탐지할 수 있음을 보여준다.
To Another Language
from source content
arxiv.org
Дополнительные вопросы