Core Concepts
대형 비전-언어 모델에서 발생하는 환각을 줄이기 위해 지침 대조 디코딩 방법을 제안한다.
Abstract
이 논문은 대형 비전-언어 모델(LVLM)에서 발생하는 환각 문제를 해결하기 위한 새로운 접근법인 지침 대조 디코딩(ICD) 방법을 소개한다.
지침 교란: 지침에 역할 접두사를 추가하여 다중 모달 정렬의 불확실성을 증가시킴으로써 환각을 악화시킬 수 있음을 발견했다.
ICD 방법: 표준 지침과 교란 지침에서 도출된 두 분포를 대조하여 환각 개념을 제거하는 방식으로, 환각을 완화시킬 수 있다.
실험 결과: POPE, MME, LLaVa-Bench 벤치마크에서 ICD 방법이 객체 수준 및 속성 수준의 환각을 크게 완화시키고, 전반적인 인지 및 인식 성능도 향상시킴을 보여준다.
추가 분석: VCD 방법과의 통합을 통해 시너지 효과를 얻을 수 있음을 확인했다.
Stats
지침 교란은 LVLM의 환각 발생률을 크게 높인다.
부정적인 교란 지침은 자주 공존하는 객체 환각을 더욱 증폭시킨다.
Quotes
"지침 교란은 통계적 편향과 언어 선행 지식에 의해 발생하는 환각을 크게 악화시킨다."
"ICD 방법은 환각 개념을 강조한 후 제거함으로써 효과적으로 환각을 완화할 수 있다."