이 논문은 다중 모달 의미 이해 작업, 특히 다중 모달 풍자 탐지(MSD)와 다중 모달 감성 분석(MSA)에 초점을 맞추고 있다. 기존 연구들은 충분한 학습 데이터를 필요로 하지만, 고품질 다중 모달 데이터 수집이 어려운 문제가 있다. 이를 해결하기 위해 저자들은 사전 학습된 비전-언어 모델(VLM)을 활용하는 새로운 다중 모달 프롬프트 프레임워크 MoPE-BAF를 제안한다.
MoPE-BAF는 세 가지 전문가 프롬프트를 포함한다. 이미지 프롬프트와 텍스트 프롬프트는 각 모달리티의 특화된 특징을 추출하고, 통합 프롬프트는 다중 모달 상호작용을 돕는다. 또한 블록 기반 프롬프트 융합 메커니즘을 도입하여 단일 모달 특화와 다중 모달 융합 간의 균형을 달성한다.
실험 결과, MoPE-BAF는 기존 방법들을 크게 능가하며, 특히 8.2B 매개변수의 대형 언어 모델인 InstructBLIP보다 우수한 성능을 보인다. 또한 다중 모달 감성 분석 작업에서도 기존 최신 모델을 능가하는 성과를 보였다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Zichen Wu,Hs... lúc arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11311.pdfYêu cầu sâu hơn