Core Concepts
대형 비전-언어 모델은 객체 환각 문제를 겪고 있으며, 이는 시각 요약 및 추론 등 다양한 비전-언어 작업에 부정적인 영향을 미칠 수 있다. 이를 해결하기 위해 LURE라는 간단하면서도 강력한 알고리즘을 제안한다.
Abstract
이 논문은 대형 비전-언어 모델(LVLM)에서 발생하는 객체 환각 문제를 다룬다. 객체 환각은 이미지에 실제 존재하지 않는 객체를 생성하는 문제로, 다양한 비전-언어 작업에 부정적인 영향을 미칠 수 있다.
저자들은 객체 환각의 주요 요인을 통계적으로 분석했다. 첫째, 훈련 데이터에 존재하는 객체 간 잘못된 연관 관계(co-occurrence)가 환각을 유발할 수 있다. 둘째, 모델이 불확실성이 높은 객체를 생성할 가능성이 크다. 셋째, 생성된 텍스트의 후반부에서 더 많은 환각이 발생한다.
이를 바탕으로 저자들은 LURE라는 후처리 방식의 환각 교정기를 제안했다. LURE는 co-occurrence, 불확실성, 객체 위치 등의 요인을 활용해 환각이 포함된 설명을 정확한 설명으로 변환한다. 실험 결과, LURE는 기존 최고 성능 방법보다 객체 환각을 효과적으로 줄일 수 있었다.
Stats
객체 환각이 많이 발생하는 설명일수록 co-occurrence 점수가 높다.
불확실성이 높은 객체일수록 환각 가능성이 크다.
생성된 텍스트의 후반부에서 더 많은 환각이 발생한다.
Quotes
"Large vision-language models (LVLMs) have shown remarkable abilities in un-derstanding visual information with human languages. However, LVLMs still suffer from object hallucination, which is the problem of generating descriptions that include objects that do not actually exist in the images."
"Object hallucination refers to the phenomenon of generating inaccurate descriptions for a given image, including non-existent objects or omitting essential features."