본 논문은 자연어 설명을 통해 3D 포인트 클라우드 장면에서 대상 객체를 식별하는 3D 시각적 그라운딩 프레임워크 DOrA를 제안한다. DOrA는 대형 언어 모델을 활용하여 참조 순서를 추출하고, 이를 기반으로 객체 참조 블록을 순차적으로 적용하여 대상 객체를 점진적으로 찾아낸다.
다중 참조 객체를 포함한 복잡한 설명을 이해하고 정확하게 대상 객체를 찾아내는 것이 핵심 목표이다. 이를 위해 관계 학습과 의미 강화 기술을 활용하여 시각-언어 정렬을 향상시킨다.
제안된 SeCG 모델은 3D 점군 데이터와 텍스트 설명 간의 관계를 효과적으로 학습하여 다중 참조 객체가 포함된 복잡한 장면에서 타겟 객체를 정확하게 위치시킬 수 있다.