Core Concepts
다중 모달 의미 이해를 위해 단일 모달 특화 프롬프트와 다중 모달 융합 프롬프트를 혼합하고, 블록 기반 프롬프트 융합 메커니즘을 도입하여 단일 모달 특화와 다중 모달 융합 간의 균형을 달성한다.
Abstract
이 논문은 다중 모달 의미 이해 작업, 특히 다중 모달 풍자 탐지(MSD)와 다중 모달 감성 분석(MSA)에 초점을 맞추고 있다. 기존 연구들은 충분한 학습 데이터를 필요로 하지만, 고품질 다중 모달 데이터 수집이 어려운 문제가 있다. 이를 해결하기 위해 저자들은 사전 학습된 비전-언어 모델(VLM)을 활용하는 새로운 다중 모달 프롬프트 프레임워크 MoPE-BAF를 제안한다.
MoPE-BAF는 세 가지 전문가 프롬프트를 포함한다. 이미지 프롬프트와 텍스트 프롬프트는 각 모달리티의 특화된 특징을 추출하고, 통합 프롬프트는 다중 모달 상호작용을 돕는다. 또한 블록 기반 프롬프트 융합 메커니즘을 도입하여 단일 모달 특화와 다중 모달 융합 간의 균형을 달성한다.
실험 결과, MoPE-BAF는 기존 방법들을 크게 능가하며, 특히 8.2B 매개변수의 대형 언어 모델인 InstructBLIP보다 우수한 성능을 보인다. 또한 다중 모달 감성 분석 작업에서도 기존 최신 모델을 능가하는 성과를 보였다.
Stats
다중 모달 풍자 탐지 데이터셋 MSDT에서 32개의 학습 샘플을 사용한 실험 결과, 제안 모델이 기존 최신 모델 대비 4.76% 높은 정확도를 달성했다.
다중 모달 감성 분석 데이터셋 MVSA-S에서 제안 모델이 기존 최신 모델 대비 3.91% 높은 F1 점수를 달성했다.
Quotes
"다중 모달 의미 이해(MSU)는 텍스트와 시각 정보의 복잡한 상호작용을 해석할 수 있는 기계 개발을 위해 필수적이다."
"사회 미디어 플랫폼에서 텍스트와 이미지의 조합은 단일 모달리티만으로는 명확하지 않은 상반된 메시지나 미묘한 감정을 나타낼 수 있어, 이러한 이해가 중요하다."