핵심 개념
비전 언어 모델은 광학 착시 이미지에 대한 이해와 위치 파악에 어려움을 겪는다. 인간에 비해 현저히 낮은 성능을 보이며, 일반적인 객체 인식에는 강점을 보이지만 기하학적으로 불가능한 객체를 구별하는 데 어려움을 겪는다.
초록
이 연구는 비전 언어 모델의 광학 착시 이해 능력을 평가하기 위해 IllusionVQA 데이터셋을 소개한다. 이 데이터셋은 12가지 범주의 다양한 광학 착시 이미지와 이에 대한 질문-답변 쌍으로 구성되어 있다.
실험 결과, 최신 비전 언어 모델인 GPT4V가 가장 높은 성능을 보였지만 인간 수준에는 크게 미치지 못했다. 특히 기하학적으로 불가능한 객체를 구별하는 과제에서 비전 언어 모델의 성능이 매우 저조했다.
또한 In-Context Learning과 Chain-of-Thought 기법이 비전 언어 모델의 성능 향상에 일관적이지 않은 것으로 나타났다. 일부 경우에는 오히려 성능이 저하되는 것을 발견했다. 이는 비전 언어 모델이 언어 편향에 취약하고 시각 정보를 충분히 활용하지 못하는 것으로 해석된다.
이 연구는 비전 언어 모델의 광학 착시 이해 능력의 한계를 밝혀내고, 실세계 응용에서 이러한 약점을 극복하기 위한 방향을 제시한다.
통계
기하학적으로 불가능한 객체를 구별하는 과제에서 GPT4V와 Gemini-Pro의 정확도는 각각 49.7%와 33.9%에 불과했다.
인간 평가자들은 동일한 과제에서 100% 정확도를 보였다.
인용구
"VLMs are capable of visual comprehension and common-sense reasoning. This naturally led to the question: How do VLMs respond when the image itself is inherently unreasonable?"
"We discover that In-Context Learning (ICL) and Chain-of-Thought reasoning substantially degrade the performance of Gemini-Pro on the localization task."