대규모 비전 언어 모델(LVLM)에서 널리 사용되는 회전 위치 인코딩(RoPE) 방식은 장거리 시각적 단서와 지시 토큰 간의 상호 작용을 저해하여 객체 환각 현상을 야기하는데, 본 논문에서는 시각적 토큰을 동심원 형태로 재배치하고 인과 마스크를 수정하여 시각적 토큰과 지시 토큰 간의 거리를 줄임으로써 RoPE의 장거리 감쇠 효과를 완화하고 객체 환각 문제를 효과적으로 해결하는 동심원 인과 주의(CCA) 방법론을 제안한다.
대규모 비전-언어 모델(LVLM)의 객체 환각은 주로 시각적 특징 추출보다는 시각적-텍스트적 특징 간의 불충분한 정렬에서 비롯되며, 학습 가능한 가상 토큰을 활용하여 이러한 정렬 문제를 해결함으로써 객체 환각을 효과적으로 완화할 수 있다.