Conceptos Básicos
비전 모델과 대규모 언어 모델(LLM)을 단일 선형 레이어를 통해 효과적으로 연결하여 동결된 LLM이 시각적 세계를 이해할 수 있도록 한다.
Resumen
이 논문은 VLAP라는 새로운 접근법을 소개한다. VLAP는 사전 학습된 비전 모델과 대규모 언어 모델(LLM)을 연결하여 동결된 LLM이 시각적 세계를 이해할 수 있도록 한다. VLAP는 LLM의 단어 임베딩 공간으로 사전 학습된 비전 모델의 임베딩 공간을 단일 선형 레이어를 통해 변환한다. 구체적으로 VLAP는 잘 확립된 단어 임베딩을 활용하여 두 모달리티 임베딩 공간을 연결한다. 시각적 및 텍스트 표현은 최적 수송 문제로 정식화된 할당 절차를 통해 사전 학습된 LLM 내의 일련의 단어 임베딩에 동시에 할당된다. 한 모달리티의 표현에서 다른 모달리티의 할당을 예측함으로써 시각 및 언어 표현이 동일한 정보를 포함하도록 한다. 이를 통해 LLM의 단어 임베딩 공간이 시각 데이터로 기반이 된다. 또한 LLM이 단어 임베딩 간의 상관관계로부터 언어 정보를 해석하고 추론하므로 LLM의 견고한 의미론적 분류법이 보존될 수 있다. 실험 결과는 VLAP가 이미지 캡셔닝, 시각적 질문 답변, 크로스 모달 검색 등 다양한 비전-언어 작업에서 이전 선형 변환 기반 접근법보다 큰 성능 향상을 달성했음을 보여준다. 또한 학습된 시각 표현이 LLM의 의미론적 분류법을 유지하여 시각 의미 산술 연산이 가능함을 입증한다.
Estadísticas
비전 모델과 언어 모델의 아키텍처에 따라 다양한 비전-언어 작업에서 VLAP가 이전 방법보다 큰 성능 향상을 달성했다.
VLAP는 이미지 캡셔닝 작업에서 CIDEr-D 점수를 최대 29.3% 향상시켰다.
VLAP는 시각적 질문 답변 작업에서 최대 20.8%의 정확도 향상을 보였다.
VLAP는 크로스 모달 검색 작업에서 최대 9.2%의 Recall@1 향상을 달성했다.
Citas
"VLAP는 이전 선형 변환 기반 접근법보다 다양한 비전-언어 작업에서 큰 성능 향상을 달성했다."
"VLAP는 학습된 시각 표현이 LLM의 의미론적 분류법을 유지하여 시각 의미 산술 연산이 가능함을 입증했다."