Core Concepts
다중 모달 대형 언어 모델의 객체 중심 인지 능력을 향상시키기 위해 시각적 및 텍스트 프롬프팅을 통합하는 새로운 접근법을 제시한다.
Abstract
이 논문은 다중 모달 대형 언어 모델(MLLM)의 객체 중심 인지 능력을 향상시키기 위한 새로운 접근법인 VTPrompt를 소개한다. VTPrompt는 텍스트 질문에서 핵심 개념을 추출하고, 이를 바탕으로 객체 탐지 모델을 활용하여 관련 객체를 이미지에 시각적으로 표시한다. 이렇게 생성된 시각적 프롬프트와 최적화된 텍스트 프롬프트를 MLLM에 제공하여 객체 중심 인지 성능을 향상시킨다.
실험 결과, VTPrompt를 적용한 GPT-4V와 Gemini Pro 모델이 MME, MMB, POPE 벤치마크에서 유의미한 성능 향상을 보였다. 특히 MME 벤치마크에서 GPT-4V의 점수가 183.5점 증가했고, MMB에서는 GPT-4V와 Gemini Pro의 성능이 각각 8.17%, 15.69% 향상되었다. 이는 VTPrompt가 MLLM의 객체 중심 인지 능력을 크게 향상시킬 수 있음을 보여준다.
Stats
객체 중심 인지 과제에서 GPT-4V의 성능이 최대 183.5점 향상되었다.
MMB 벤치마크에서 GPT-4V와 Gemini Pro의 성능이 각각 8.17%, 15.69% 향상되었다.
Quotes
"다중 모달 대형 언어 모델(MLLM)은 객체 중심 인지 과제에서 인간 수준의 인지 능력을 달성하는 데 어려움을 겪고 있다."
"VTPrompt는 텍스트 질문에서 핵심 개념을 추출하고, 이를 바탕으로 객체 탐지 모델을 활용하여 관련 객체를 이미지에 시각적으로 표시함으로써 MLLM의 객체 중심 인지 능력을 향상시킨다."