핵심 개념
대규모 비전-언어 모델은 현실과 부합하지 않는 출력을 생성하는 환각 문제를 겪고 있으며, 이를 종합적으로 평가하고 이해하는 것이 필요하다.
초록
이 논문은 대규모 비전-언어 모델(LVLMs)의 환각 문제를 종합적으로 평가하기 위한 방법을 제안한다.
먼저, 객체, 속성, 관계의 세 가지 차원에서 환각을 평가하는 VALOR-BENCH 벤치마크 데이터셋을 구축했다. 이 데이터셋은 모델의 연관 편향을 활용하여 도전적인 이미지를 선별했다.
다음으로, VALOR-EVAL이라는 평가 프레임워크를 제안했다. 이는 기존의 CHAIR 메트릭을 확장한 것으로, 언어 모델을 활용하여 개방형 어휘 환경에서 충실도와 범위를 모두 평가할 수 있다.
실험 결과, 10개의 주요 LVLMs를 VALOR-BENCH로 평가했다. 일부 모델은 정확도를 높이기 위해 범위를 희생하는 경향이 있음을 발견했다. 이는 LVLMs 설계 시 충실도와 범위의 균형을 달성하는 것이 중요함을 시사한다.
통계
대규모 비전-언어 모델은 현실과 부합하지 않는 출력을 생성하는 환각 문제를 겪고 있다.
기존 평가 방법은 객체 환각에 초점을 맞추고 있어, 속성과 관계 환각을 간과하고 있다.
제안한 VALOR-BENCH 벤치마크는 객체, 속성, 관계의 세 가지 차원에서 환각을 평가한다.
VALOR-EVAL 평가 프레임워크는 언어 모델을 활용하여 충실도와 범위를 모두 평가할 수 있다.
인용구
"대규모 비전-언어 모델(LVLMs)은 현실과 부합하지 않는 출력을 생성하는 환각 문제를 겪고 있어, 이를 종합적으로 평가하고 이해하는 것이 필요하다."
"기존 평가 방법은 객체 환각에 초점을 맞추고 있어, 속성과 관계 환각을 간과하고 있다."
"제안한 VALOR-BENCH 벤치마크는 객체, 속성, 관계의 세 가지 차원에서 환각을 평가한다."
"VALOR-EVAL 평가 프레임워크는 언어 모델을 활용하여 충실도와 범위를 모두 평가할 수 있다."