이 논문은 3D 시각적 그라운딩 문제를 다룬다. 3D 시각적 그라운딩은 텍스트 설명에 해당하는 3D 장면 내 객체를 자동으로 찾는 작업이다. 기존 방법들은 유사한 객체가 많이 존재하거나 다중 참조 객체가 포함된 경우 성능이 저하되는 문제가 있었다.
제안된 SeCG 모델은 다음과 같은 두 가지 핵심 기술을 통해 이 문제를 해결한다:
실험 결과, SeCG 모델은 ReferIt3D와 ScanRefer 벤치마크에서 기존 최신 모델들을 뛰어넘는 성능을 보였으며, 특히 다중 참조 객체가 포함된 복잡한 장면에서 두드러진 성능 향상을 보였다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Feng Xiao,Ho... alle arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.08182.pdfDomande più approfondite