核心概念
멀티모달 대규모 언어 모델(MLLM)은 이미지와 텍스트를 결합하여 처리하는 능력에도 불구하고, 봉가드 문제와 같은 추상적 시각적 추론(AVR) 과제에서 여전히 상당한 어려움을 겪고 있다.
摘要
멀티모달 대규모 언어 모델의 추론 한계: 봉가드 문제 사례 연구
본 연구는 봉가드 문제를 사례 연구로 활용하여 독점적 및 오픈 액세스 멀티모달 대규모 언어 모델(MLLM)의 추론 능력을 평가하는 것을 목표로 한다.
연구진은 합성 및 실제 이미지를 포괄하는 네 가지 봉가드 문제 데이터 세트(합성 봉가드 문제 100개, 봉가드 HOI 및 봉가드-OpenWorld에서 선택된 문제 100개, 봉가드-RWR의 모든 60개 인스턴스)를 사용하여 다양한 실험을 수행했다. 각 실험에서 모델은 이미지와 텍스트 프롬프트를 입력받아 봉가드 문제를 풀고 답변을 생성했다. 모델의 성능은 정답 수, 정확도, 오답 유형을 기준으로 평가되었다.