이 논문은 대규모 비전-언어 모델(LVLMs)의 환각 문제를 종합적으로 평가하기 위한 방법을 제안한다.
먼저, 객체, 속성, 관계의 세 가지 차원에서 환각을 평가하는 VALOR-BENCH 벤치마크 데이터셋을 구축했다. 이 데이터셋은 모델의 연관 편향을 활용하여 도전적인 이미지를 선별했다.
다음으로, VALOR-EVAL이라는 평가 프레임워크를 제안했다. 이는 기존의 CHAIR 메트릭을 확장한 것으로, 언어 모델을 활용하여 개방형 어휘 환경에서 충실도와 범위를 모두 평가할 수 있다.
실험 결과, 10개의 주요 LVLMs를 VALOR-BENCH로 평가했다. 일부 모델은 정확도를 높이기 위해 범위를 희생하는 경향이 있음을 발견했다. 이는 LVLMs 설계 시 충실도와 범위의 균형을 달성하는 것이 중요함을 시사한다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Haoyi Qiu,We... lúc arxiv.org 04-23-2024
https://arxiv.org/pdf/2404.13874.pdfYêu cầu sâu hơn