이 논문은 로봇이 3D 환경을 탐색하여 질문에 대한 답변을 찾는 문제를 다룹니다. 주요 내용은 다음과 같습니다:
로봇이 3D 환경을 탐색하면서 비전-언어 모델(VLM)의 지식을 활용하여 관련 영역을 찾아 효율적으로 탐색하는 방법을 제안합니다. VLM의 지식을 외부 시맨틱 맵에 저장하고, 이를 기반으로 탐색 경로를 계획합니다.
VLM의 예측 신뢰도가 잘못 보정되어 있는 문제를 해결하기 위해 다단계 컨포멀 예측(Conformal Prediction) 기법을 사용하여 신뢰도를 보정하고, 이를 통해 탐색을 중단할 적절한 시점을 결정합니다.
실험을 위해 HM-EQA라는 새로운 데이터셋을 구축하였습니다. 이 데이터셋은 실제 환경과 유사한 3D 장면과 다양한 질문으로 구성되어 있습니다.
시뮬레이션과 실제 로봇 실험을 통해 제안한 방법이 기존 방법에 비해 더 효율적인 탐색을 수행할 수 있음을 보였습니다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Allen Z. Ren... alle arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.15941.pdfDomande più approfondite