이 논문은 개방형 어휘 3D 장면 그래프 매핑 기법인 HOV-SG를 제안한다. 개방형 어휘 비전 기반 모델을 활용하여 3D 세그먼트 수준의 지도를 생성하고, 이를 바탕으로 층, 방, 객체 개념으로 구성된 계층적 3D 장면 그래프를 구축한다. 이를 통해 다층 건물 표현과 층간 보로노이 그래프 기반 로봇 이동이 가능하다.
HOV-SG는 3개의 서로 다른 데이터셋에서 평가되었으며, 객체, 방, 층 수준에서 이전 기준선을 능가하는 개방형 어휘 정확도를 보였다. 또한 밀집 개방형 어휘 지도 대비 75% 감소된 표현 크기를 달성했다. 실제 다층 환경에서의 장기 언어 기반 로봇 내비게이션을 성공적으로 수행하여 HOV-SG의 효과성과 일반화 능력을 입증했다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询