이 논문은 대규모 비전-언어 모델(LVLMs)의 환각 문제를 종합적으로 평가하기 위한 방법을 제안한다.
먼저, 객체, 속성, 관계의 세 가지 차원에서 환각을 평가하는 VALOR-BENCH 벤치마크 데이터셋을 구축했다. 이 데이터셋은 모델의 연관 편향을 활용하여 도전적인 이미지를 선별했다.
다음으로, VALOR-EVAL이라는 평가 프레임워크를 제안했다. 이는 기존의 CHAIR 메트릭을 확장한 것으로, 언어 모델을 활용하여 개방형 어휘 환경에서 충실도와 범위를 모두 평가할 수 있다.
실험 결과, 10개의 주요 LVLMs를 VALOR-BENCH로 평가했다. 일부 모델은 정확도를 높이기 위해 범위를 희생하는 경향이 있음을 발견했다. 이는 LVLMs 설계 시 충실도와 범위의 균형을 달성하는 것이 중요함을 시사한다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Haoyi Qiu,We... at arxiv.org 04-23-2024
https://arxiv.org/pdf/2404.13874.pdfDeeper Inquiries