이 논문은 다중 모달 추론 작업을 위한 Feature Swapping Multi-modal Reasoning (FSMR) 모델을 소개한다. FSMR 모델은 사전 학습된 비주얼-언어 모델을 인코더로 사용하여 텍스트와 이미지 입력을 효과적으로 표현한다.
특징 교환 모듈은 이미지 내 식별된 객체의 특징과 텍스트 내 해당 단어의 특징을 교환함으로써 텍스트와 이미지 간 의미 정보를 통합한다.
또한 다중 모달 크로스 어텐션 메커니즘을 도입하여 텍스트와 시각 정보를 효과적으로 융합한다.
이미지-텍스트 매칭 손실과 크로스 엔트로피 손실을 통해 비전과 언어 간 의미적 일관성을 보장한다.
실험 결과, FSMR 모델이 PMR 데이터셋에서 다양한 성능 지표에서 최신 모델들을 능가하는 것으로 나타났다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Shuang Li,Ji... a las arxiv.org 04-01-2024
https://arxiv.org/pdf/2403.20026.pdfConsultas más profundas