다중 모달 의미 이해를 위해 단일 모달 특화 프롬프트와 다중 모달 융합 프롬프트를 혼합하고, 블록 기반 프롬프트 융합 메커니즘을 도입하여 단일 모달 특화와 다중 모달 융합 간의 균형을 달성한다.
다중 모달 데이터의 부족한 가용성과 기존 모델의 한계를 극복하기 위해, 통합 비전-언어 모델을 활용한 새로운 다중 모달 프롬프트 학습 프레임워크를 제안한다.