다중 참조 객체를 포함한 복잡한 설명을 이해하고 정확하게 대상 객체를 찾아내는 것이 핵심 목표이다. 이를 위해 관계 학습과 의미 강화 기술을 활용하여 시각-언어 정렬을 향상시킨다.
제안된 SeCG 모델은 3D 점군 데이터와 텍스트 설명 간의 관계를 효과적으로 학습하여 다중 참조 객체가 포함된 복잡한 장면에서 타겟 객체를 정확하게 위치시킬 수 있다.