Core Concepts
시각 언어 모델에서 발생하는 다양한 유형의 시각적 환각을 체계적으로 분류하고 이를 해결하기 위한 전략을 제시한다.
Abstract
이 연구는 시각 언어 모델(VLM)에서 발생하는 시각적 환각을 광범위하게 분류하고 이를 해결하기 위한 전략을 제시한다.
시각적 환각의 8가지 유형을 정의하고 설명함:
상황적 추측
정체성 불일치
지리적 오류
시각적 착시
성별 이상
VLM 분류기
잘못된 읽기
숫자 불일치
이미지 캡셔닝과 시각적 질문 답변(VQA) 작업에서 발생하는 시각적 환각을 분석하기 위해 2,000개의 데이터셋을 구축하고 사람이 직접 주석을 달았다.
데이터 기반 접근법, 학습 조정, 사후 처리 기술 등 3가지 주요 완화 기술을 제안하고 설명한다.
Stats
모델이 이미지에 없는 요소를 생성하는 등 상황과 관련 없는 내용을 생성한다.
모델이 실제 인물의 정체성을 잘못 식별한다.
모델이 이미지의 지리적 위치나 랜드마크를 잘못 예측한다.
모델이 이미지의 특정 측면으로 인해 왜곡된 인식을 하여 부분적으로 부정확한 출력을 생성한다.
모델이 성 정체성을 부정확하게 표현한다.
모델이 두 개체를 구분하는 능력을 평가하는 상황이다.
모델이 이미지에 새겨진 텍스트를 잘못 읽는다.
모델이 이미지 내 개체 수를 정확하게 세지 못한다.
Quotes
"최근 시각 언어 모델(VLM)에서 발생하는 환각 문제는 책임감 있는 AI 발전에 가장 큰 장애물이 되고 있다."
"VLM 환각은 이미지 캡셔닝과 시각적 질문 답변(VQA) 작업에서 모두 발생하는 문제이다."
"데이터 기반 접근법, 학습 조정, 사후 처리 기술 등 3가지 주요 완화 기술을 제안한다."