본 연구는 실내 환경에서 의미 영역 매핑을 위한 방법을 제안한다. 기존 연구는 객체 레이블링과 전체 장면 그래프 생성에 초점을 맞추었지만, 본 연구는 대규모 의미 영역을 식별하고 매핑하는 데 초점을 맞춘다.
제안 방법은 비전-언어 모델을 사용하여 장면 정보를 제공하고, 이를 통해 에고 중심 이해를 전역 좌표계로 투영하여 각 위치에서 가능한 영역 레이블의 분포로 의미 지도를 생성한다. 이 매핑 절차는 자율 매핑을 가능하게 하는 훈련된 탐색 정책과 결합된다.
제안 방법은 객체 기반 시스템과 사전 훈련된 장면 분류기 등 다양한 기준선을 크게 능가한다. 실험은 사실적 시뮬레이터에서 수행되었다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Roberto Biga... lúc arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07076.pdfYêu cầu sâu hơn