이 논문은 다중 모달 추론 작업을 위한 Feature Swapping Multi-modal Reasoning (FSMR) 모델을 소개한다. FSMR 모델은 사전 학습된 비주얼-언어 모델을 인코더로 사용하여 텍스트와 이미지 입력을 효과적으로 표현한다.
특징 교환 모듈은 이미지 내 식별된 객체의 특징과 텍스트 내 해당 단어의 특징을 교환함으로써 텍스트와 이미지 간 의미 정보를 통합한다.
또한 다중 모달 크로스 어텐션 메커니즘을 도입하여 텍스트와 시각 정보를 효과적으로 융합한다.
이미지-텍스트 매칭 손실과 크로스 엔트로피 손실을 통해 비전과 언어 간 의미적 일관성을 보장한다.
실험 결과, FSMR 모델이 PMR 데이터셋에서 다양한 성능 지표에서 최신 모델들을 능가하는 것으로 나타났다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Shuang Li,Ji... lúc arxiv.org 04-01-2024
https://arxiv.org/pdf/2403.20026.pdfYêu cầu sâu hơn