이 논문은 3D 시각적 그라운딩 문제를 다룬다. 3D 시각적 그라운딩은 텍스트 설명에 해당하는 3D 장면 내 객체를 자동으로 찾는 작업이다. 기존 방법들은 유사한 객체가 많이 존재하거나 다중 참조 객체가 포함된 경우 성능이 저하되는 문제가 있었다.
제안된 SeCG 모델은 다음과 같은 두 가지 핵심 기술을 통해 이 문제를 해결한다:
실험 결과, SeCG 모델은 ReferIt3D와 ScanRefer 벤치마크에서 기존 최신 모델들을 뛰어넘는 성능을 보였으며, 특히 다중 참조 객체가 포함된 복잡한 장면에서 두드러진 성능 향상을 보였다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Feng Xiao,Ho... ב- arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.08182.pdfשאלות מעמיקות