본 논문은 3D 시각적 그라운딩 문제를 다룬다. 3D 시각적 그라운딩은 자연어 설명을 통해 3D 포인트 클라우드 장면에서 대상 객체를 식별하는 작업이다. 기존 연구들은 언어와 시각 정보의 상호작용을 활용하거나 객체 간 공간 관계를 모델링하는 등의 방법을 제안했지만, 자연어 설명의 비구조화와 장면 내 객체의 산재로 인한 어려움이 존재했다.
본 논문에서는 DOrA라는 새로운 3D 시각적 그라운딩 프레임워크를 제안한다. DOrA는 대형 언어 모델을 활용하여 자연어 설명으로부터 참조 순서를 추출하고, 이를 기반으로 순차적인 객체 참조 블록을 적용하여 대상 객체를 점진적으로 찾아낸다. 또한 정확한 참조 순서와 객체 레이블을 합성하는 사전 학습 전략을 도입하여 모델의 성능을 향상시킨다.
실험 결과, DOrA는 기존 최신 기법들을 능가하는 성능을 보였으며, 특히 적은 양의 학습 데이터 환경에서 두드러진 성과를 달성했다. 이는 참조 순서 정보와 순차적 객체 참조 메커니즘이 3D 시각적 그라운딩에 효과적임을 보여준다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询