Concetti Chiave
다중 모달 입력에 대한 적응성과 확장성을 높이기 위해 프롬프트 전문가 혼합 기법을 제안한다.
Sintesi
이 논문은 다중 모달 퓨전을 위한 효율적인 프롬프트 기반 방법을 제안한다. 기존의 프롬프트 기반 퓨전 방법은 제한적인 적응성과 확장성으로 인해 성능이 저하되는 문제가 있었다. 이를 해결하기 위해 저자들은 프롬프트를 정적, 동적, 매핑된 프롬프트로 분리하여 다중 모달 간 상호작용을 더 잘 포착할 수 있도록 하였다. 또한 프롬프트 전문가 혼합(MoPE) 기법을 도입하여 프롬프트의 표현력을 높였다. MoPE는 다중 모달 쌍 정보를 활용하여 각 입력 인스턴스에 가장 적합한 동적 프롬프트를 생성한다. 실험 결과, 제안 방법은 기존 프롬프트 기반 퓨전 방법보다 우수한 성능을 보였으며, 파라미터 효율성 면에서도 fine-tuning 수준의 성과를 달성했다. 또한 전문가 라우팅을 통해 해석 가능한 프롬프팅이 가능하다는 것을 보였다.
Statistiche
제안 방법은 기존 fine-tuning 방법과 유사한 성능을 보이면서도 trainable 파라미터가 0.8% 수준에 불과하다.
제안 방법은 데이터 규모가 증가함에 따라 다른 프롬프트 기반 방법보다 성능이 더 크게 향상된다.
Citazioni
"Prompt-tuning has demonstrated parameter-efficiency in fusing unimodal foundation models for multimodal tasks. However, its limited adaptivity and expressiveness lead to suboptimal performance when compared with other tuning methods."
"We show that our MoPE-based fusion method alleviates the two issues in previous prompt-based fusion methods by allowing instance-wise adaptive prompting and avoiding over-length deterioration for better scalability."