이 논문은 3D 시각적 그라운딩 문제에 대한 새로운 접근법을 제안한다. 기존 방법들은 독립적으로 추출된 텍스트와 시각 특징을 직접 매칭하는 데 한계가 있었다. 특히 여러 참조 객체가 포함된 복잡한 설명을 이해하는 데 어려움이 있었다.
제안하는 SeCG 모델은 두 가지 핵심 기술을 활용한다. 첫째, 관계 학습 모듈은 객체 간 내재적 관계를 그래프 주의 메커니즘을 통해 학습한다. 언어 정보를 활용하여 시각 인코딩을 관계 중심으로 유도한다. 둘째, 의미 강화 모듈은 객체의 시각 및 의미 정보를 동시에 활용하여 관계 이해를 돕는다.
이를 통해 복잡한 참조 관계를 효과적으로 파악하고 대상 객체를 정확하게 찾아낼 수 있다. 실험 결과, SeCG는 ReferIt3D와 ScanRefer 데이터셋에서 기존 최신 모델들을 능가하는 성능을 보였다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Feng Xiao,Ho... lúc arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.08182.pdfYêu cầu sâu hơn