이 논문은 멀티모달 대형 언어 모델(MLLM)의 성능을 향상시키기 위한 새로운 접근법인 Transferable Visual Prompting(TVP)을 제안한다.
MLLM은 비전-언어 태스크에서 뛰어난 성능을 보이지만, 특정 태스크에서는 전문화된 모델에 미치지 못한다. 이를 해결하기 위해 fine-tuning 방법이 사용되지만, 계산 및 메모리 오버헤드가 크다는 문제가 있다.
이 논문에서는 한 모델에서 학습된 시각적 프롬프트를 다른 MLLM에 전이하여 성능을 향상시키는 방법을 제안한다. 기존 시각적 프롬프트 방법은 모델 간 특징 왜곡 문제로 인해 전이성이 낮다는 한계가 있다.
TVP는 이를 해결하기 위해 두 가지 핵심 전략을 제안한다:
이를 통해 한 모델에서 학습된 프롬프트를 다른 MLLM에 효과적으로 전이할 수 있다. 실험 결과, TVP는 다양한 MLLM의 성능을 향상시키며, 데이터 규모, 데이터셋 일반화, 이미지 왜곡 등 다양한 상황에서 우수한 성능을 보인다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yichi Zhang,... at arxiv.org 04-18-2024
https://arxiv.org/pdf/2404.11207.pdfDeeper Inquiries