본 연구는 2D 이미지와 3D 포인트 클라우드 간의 시각-언어 상호작용을 활용하여 3D 장면 그래프 생성을 위한 약한 감독 학습 방법을 제안한다.
본 논문은 대규모 언어 모델과 논리 텐서 네트워크를 활용하여 실내외 환경에서 3D 장면 그래프를 생성하는 방법을 제안한다.