Основные понятия
다중 모달 데이터의 부족한 가용성과 기존 모델의 한계를 극복하기 위해, 통합 비전-언어 모델을 활용한 새로운 다중 모달 프롬프트 학습 프레임워크를 제안한다.
Аннотация
이 논문은 다중 모달 의미 이해 작업, 특히 다중 모달 풍자 탐지(MSD)와 다중 모달 감성 분석(MSA)에 초점을 맞추고 있다.
- 데이터 수집 및 주석화의 어려움으로 인해 중요해진 few-shot 학습의 중요성을 강조한다.
- 통합 비전-언어 모델(VLM)을 활용하여 단일 모달 표현과 다중 모달 융합을 모두 향상시키는 새로운 다중 모달 프롬프트 학습 프레임워크 MoPE-BAF를 제안한다.
- MoPE-BAF는 세 가지 전문가 프롬프트(이미지, 텍스트, 통합)를 사용하여 모달리티 간 상호작용을 향상시킨다.
- 또한 블록 기반 프롬프트 융합 메커니즘을 도입하여 단일 모달 특화와 다중 모달 융합 간의 균형을 달성한다.
- MSD와 MSA 데이터셋에서 실험을 수행하여 제안 모델이 기존 방법과 대형 언어 모델을 크게 능가함을 보여준다.
Статистика
이미지-텍스트 쌍의 길이는 평균 21.85입니다.
MSDT 데이터셋의 훈련 세트에는 8,642개의 풍자 샘플과 11,174개의 비풍자 샘플이 있습니다.
MVSA-S 데이터셋의 1% 샘플을 사용하여 few-shot MSA 실험을 수행했습니다.
Цитаты
"Deep multi-modal semantic understanding that goes beyond the mere superficial content relation mining has received increasing attention in the realm of artificial intelligence."
"Collecting a large amount of high-quality multi-modal data, sarcasm especially, is a non-trivial task."
"Nowadays, pre-trained on large-scale image-text pairs, the vision-language models (VLMs) achieve good image-text correspondences and can perform well on cross-modal reasoning."