Core Concepts
시각 언어 모델은 입력 이미지와 관련이 없는 문맥적으로 타당한 텍스트를 생성하는 경향이 있다. 이 문제를 해결하기 위해 시각 정보와 언어 모델의 상호 정보를 활용하여 이미지 의존성을 높이는 새로운 샘플링 방법을 제안한다.
Abstract
이 논문은 시각 언어 모델(VLM)의 환각 문제를 다룬다. VLM은 사전 학습된 대규모 언어 모델(LLM)에 시각 인코더를 결합하여 만든 모델로, 언어 이해 능력과 유창성은 뛰어나지만 입력 이미지와 관련이 없는 내용을 생성하는 경향이 있다.
저자들은 이 문제를 정량적으로 측정하기 위해 시각 정보 의존도(PDM)라는 지표를 제안한다. PDM은 토큰이 입력 이미지와 얼마나 관련이 있는지를 나타내는 척도로, 토큰 생성 과정에서 시각 정보의 영향력이 점점 감소하는 현상을 관찰했다.
이를 해결하기 위해 저자들은 Multi-Modal Mutual-Information Decoding(M3ID)이라는 새로운 샘플링 방법을 제안한다. M3ID는 토큰 생성 시 시각 정보와 언어 모델의 상호 정보를 최대화하여 이미지 의존성을 높이는 방식이다. 이를 통해 환각을 줄이면서도 언어 모델의 유창성을 유지할 수 있다.
또한 모델 가중치에 접근할 수 있는 경우, Direct Preference Optimization(DPO)을 활용하여 시각 정보 의존도가 높은 출력을 선호하도록 모델을 추가로 학습시킬 수 있다.
실험 결과, M3ID와 M3ID+DPO는 캡셔닝 과제에서 환각 객체 비율을 각각 25%와 28% 감소시켰고, VQA 벤치마크인 POPE에서도 각각 21%와 24% 정확도 향상을 보였다.
Stats
시각 정보 의존도가 낮은 토큰일수록 환각 가능성이 높다.
토큰 생성 과정에서 시각 정보의 영향력이 점점 감소한다.
Quotes
"시각 언어 모델(VLM)은 사전 학습된 대규모 언어 모델(LLM)에 시각 인코더를 결합하여 만든 모델로, 언어 이해 능력과 유창성은 뛰어나지만 입력 이미지와 관련이 없는 내용을 생성하는 경향이 있다."
"저자들은 이 문제를 정량적으로 측정하기 위해 시각 정보 의존도(PDM)라는 지표를 제안한다."
"M3ID는 토큰 생성 시 시각 정보와 언어 모델의 상호 정보를 최대화하여 이미지 의존성을 높이는 방식이다."