이 논문은 다중 모달 추론 작업을 위한 Feature Swapping Multi-modal Reasoning (FSMR) 모델을 소개한다. FSMR 모델은 사전 학습된 비주얼-언어 모델을 인코더로 사용하여 텍스트와 이미지 입력을 효과적으로 표현한다.
특징 교환 모듈은 이미지 내 식별된 객체의 특징과 텍스트 내 해당 단어의 특징을 교환함으로써 텍스트와 이미지 간 의미 정보를 통합한다.
또한 다중 모달 크로스 어텐션 메커니즘을 도입하여 텍스트와 시각 정보를 효과적으로 융합한다.
이미지-텍스트 매칭 손실과 크로스 엔트로피 손실을 통해 비전과 언어 간 의미적 일관성을 보장한다.
실험 결과, FSMR 모델이 PMR 데이터셋에서 다양한 성능 지표에서 최신 모델들을 능가하는 것으로 나타났다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問