대규모 비전-언어 모델(LVLM)이 다양한 수준과 유형의 시각적 관계를 이해할 수 있도록 하는 방법을 제안한다. 관계 인식 훈련 방식과 데이터 구성 전략을 통해 LVLM이 의미적 관계, 시간적 연관성, 기하학적 변환을 이해할 수 있게 한다.