이 논문은 3D 시각적 그라운딩 문제에 대한 새로운 접근법을 제안한다. 기존 방법들은 독립적으로 추출된 텍스트와 시각 특징을 직접 매칭하는 데 한계가 있었다. 특히 여러 참조 객체가 포함된 복잡한 설명을 이해하는 데 어려움이 있었다.
제안하는 SeCG 모델은 두 가지 핵심 기술을 활용한다. 첫째, 관계 학습 모듈은 객체 간 내재적 관계를 그래프 주의 메커니즘을 통해 학습한다. 언어 정보를 활용하여 시각 인코딩을 관계 중심으로 유도한다. 둘째, 의미 강화 모듈은 객체의 시각 및 의미 정보를 동시에 활용하여 관계 이해를 돕는다.
이를 통해 복잡한 참조 관계를 효과적으로 파악하고 대상 객체를 정확하게 찾아낼 수 있다. 실험 결과, SeCG는 ReferIt3D와 ScanRefer 데이터셋에서 기존 최신 모델들을 능가하는 성능을 보였다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문