Core Concepts
대규모 비전-언어 모델의 환각 문제를 해결하기 위해 모델의 환각 특성을 고려한 타겟화된 지침 데이터 생성 방법을 제안한다.
Abstract
이 논문은 대규모 비전-언어 모델(LVLM)의 환각 문제를 해결하기 위한 새로운 접근법을 제안한다. 기존 연구에서는 GPT4와 같은 강력한 모델을 활용하여 지침 데이터를 생성하였지만, 이는 모델의 환각 특성을 고려하지 않아 효과가 제한적이었다.
저자들은 먼저 LVLM의 환각 특성을 분석하여 모델마다 환각되는 개념이 다르다는 것을 발견했다. 이에 따라 저자들은 DFTG(Diagnose First, Then Generate) 프레임워크를 제안했다. DFTG는 두 단계로 구성된다. 첫 번째 단계에서는 모델의 환각을 진단하고, 두 번째 단계에서는 진단 결과를 바탕으로 타겟화된 지침 데이터를 생성한다.
실험 결과, DFTG로 생성된 지침 데이터를 사용하여 LVLM을 튜닝하면 기존 방법보다 환각 문제를 더 효과적으로 완화할 수 있음을 보였다. 이는 모델의 환각 특성을 고려하여 데이터를 생성하는 것이 중요함을 시사한다.
Stats
대규모 비전-언어 모델은 생성한 응답에 실제 이미지에 존재하지 않는 객체를 포함하는 환각 문제를 겪고 있다.
MiniGPT-4와 mPlug-Owl 모델의 환각 객체 분포가 상당히 다르다.
GPT4가 생성한 지침 데이터는 LVLM의 환각 특성을 반영하지 못해 효과가 제한적이다.
Quotes
"LVLMs tend to answer "Yes" for any questions presented to the model, regardless of their accuracy. This tendency stems from their fine-tuning on datasets that predominantly feature positive instructions, lacking a balanced representation of negative ones."
"Considering that different LVLMs utilize different data during the training stage, this hallucination specificity should be quite common in these models."