Core Concepts
기존 다중 모달 대규모 언어 모델들은 시각 정보에 과도하게 의존하여 반사실적 추론 능력이 부족한 것으로 나타났다.
Abstract
이 연구는 다중 모달 대규모 언어 모델의 반사실적 추론 능력을 평가하기 위해 CFMM이라는 새로운 벤치마크를 제안했다. CFMM은 6가지 유형의 반사실적 질문으로 구성되며, 각 질문에는 기본 질문과 반사실적 질문이 포함되어 있다.
실험 결과, 기존의 다중 모달 대규모 언어 모델들은 기본 질문에 대해서는 높은 성능을 보였지만, 반사실적 질문에 대해서는 큰 성능 저하를 보였다. 이는 이들 모델이 시각 정보에 과도하게 의존하고 있으며, 반사실적 전제를 제대로 이해하지 못하고 있음을 보여준다.
또한 1-shot ICL과 1-shot CoT 기법을 적용했을 때 일부 모델의 성능이 향상되었지만, 근본적인 한계를 극복하지는 못했다. 이를 통해 현재 다중 모달 대규모 언어 모델의 반사실적 추론 능력이 여전히 인간 수준에 크게 미치지 못함을 알 수 있다.
Stats
기본 질문에 대한 정확도(accb)는 평균 302.47점이었지만, 반사실적 질문에 대한 정확도(accc)는 평균 167.45점에 그쳤다.
전체 점수(Total score)는 평균 427.73점으로, 기본 질문과 반사실적 질문을 모두 맞힌 정확도(acc+)는 평균 173.97점이었다.
Quotes
"Eyes can deceive: 모든 다중 모달 대규모 언어 모델들이 반사실적 전제를 다룰 때 큰 성능 저하를 겪었다."
"기존 모델들은 시각 정보에 과도하게 의존하고 있으며, 반사실적 전제를 제대로 이해하지 못하고 있다."