Core Concepts
비전 언어 모델은 이미지와 질문 간의 불일치나 부적절한 답변 선택지 등 해결 불가능한 문제를 인식하고 답변을 보류할 수 있어야 한다.
Abstract
이 논문은 비전 언어 모델의 신뢰성을 평가하기 위한 새로운 과제인 "해결 불가능한 문제 탐지(Unsolvable Problem Detection, UPD)"를 제안한다. UPD는 다음 세 가지 설정으로 구성된다:
답변 부재 탐지(Absent Answer Detection, AAD): 정답이 제공된 선택지에 없는 경우 모델이 이를 인식하고 답변을 보류할 수 있는지 평가한다.
부적절한 답변 선택지 탐지(Incompatible Answer Set Detection, IASD): 질문과 무관한 답변 선택지가 제공된 경우 모델이 이를 인식하고 답변을 보류할 수 있는지 평가한다.
부적절한 질문-이미지 탐지(Incompatible Visual Question Detection, IVQD): 질문과 이미지가 서로 부적절하게 연관된 경우 모델이 이를 인식하고 답변을 보류할 수 있는지 평가한다.
저자들은 MMBench 데이터셋을 활용하여 UPD 벤치마크(MM-AAD, MM-IASD, MM-IVQD)를 구축하였다. 실험 결과, 대부분의 최신 비전 언어 모델들이 UPD 문제에서 취약한 모습을 보였다. GPT-4V와 LLaVA-Next-34B가 상대적으로 우수한 성능을 보였지만, 일부 능력에서 여전히 한계를 보였다. 또한 프롬프트 엔지니어링 기반의 접근법과 지시 튜닝 기반의 접근법을 시도했지만, UPD 문제를 해결하는 데 여전히 어려움이 있음을 확인했다.
Stats
IVQD 정확도는 0이다.
LLaVA-1.5-13B의 AAD 정확도는 0.6이다.
LLaVA-Next-34B의 IASD 정확도는 56.7이다.
GPT-4V의 IVQD 정확도는 62.4이다.
Quotes
"현재 비전 언어 모델(VLM)은 이미지와 질문 간의 불일치나 부적절한 답변 선택지 등 해결 불가능한 문제를 인식하고 답변을 보류하는 능력이 부족하다."
"GPT-4V와 LLaVA-Next-34B가 상대적으로 우수한 성능을 보였지만, 일부 능력에서 여전히 한계를 보였다."
"프롬프트 엔지니어링 기반의 접근법과 지시 튜닝 기반의 접근법을 시도했지만, UPD 문제를 해결하는 데 여전히 어려움이 있음을 확인했다."