이 연구는 비전 언어 모델의 광학 착시 이해 능력을 평가하기 위해 IllusionVQA 데이터셋을 소개한다. 이 데이터셋은 12가지 범주의 다양한 광학 착시 이미지와 이에 대한 질문-답변 쌍으로 구성되어 있다.
실험 결과, 최신 비전 언어 모델인 GPT4V가 가장 높은 성능을 보였지만 인간 수준에는 크게 미치지 못했다. 특히 기하학적으로 불가능한 객체를 구별하는 과제에서 비전 언어 모델의 성능이 매우 저조했다.
또한 In-Context Learning과 Chain-of-Thought 기법이 비전 언어 모델의 성능 향상에 일관적이지 않은 것으로 나타났다. 일부 경우에는 오히려 성능이 저하되는 것을 발견했다. 이는 비전 언어 모델이 언어 편향에 취약하고 시각 정보를 충분히 활용하지 못하는 것으로 해석된다.
이 연구는 비전 언어 모델의 광학 착시 이해 능력의 한계를 밝혀내고, 실세계 응용에서 이러한 약점을 극복하기 위한 방향을 제시한다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések