비전 언어 모델은 광학 착시 이미지에 대한 이해와 위치 파악에 어려움을 겪는다. 인간에 비해 현저히 낮은 성능을 보이며, 일반적인 객체 인식에는 강점을 보이지만 기하학적으로 불가능한 객체를 구별하는 데 어려움을 겪는다.