Основні поняття
멀티모달 대규모 언어 모델(MLLM)은 이미지와 텍스트를 결합하여 처리하는 능력에도 불구하고, 봉가드 문제와 같은 추상적 시각적 추론(AVR) 과제에서 여전히 상당한 어려움을 겪고 있다.
Анотація
멀티모달 대규모 언어 모델의 추론 한계: 봉가드 문제 사례 연구
본 연구는 봉가드 문제를 사례 연구로 활용하여 독점적 및 오픈 액세스 멀티모달 대규모 언어 모델(MLLM)의 추론 능력을 평가하는 것을 목표로 한다.
연구진은 합성 및 실제 이미지를 포괄하는 네 가지 봉가드 문제 데이터 세트(합성 봉가드 문제 100개, 봉가드 HOI 및 봉가드-OpenWorld에서 선택된 문제 100개, 봉가드-RWR의 모든 60개 인스턴스)를 사용하여 다양한 실험을 수행했다. 각 실험에서 모델은 이미지와 텍스트 프롬프트를 입력받아 봉가드 문제를 풀고 답변을 생성했다. 모델의 성능은 정답 수, 정확도, 오답 유형을 기준으로 평가되었다.