본 연구는 비전-언어 네비게이션(VLN) 과제에서 기존 모델들의 한계를 해결하기 위해 계층적 공간 근접성 추론 모델(HSPR)을 제안했다.
첫째, 장면 이해 보조 과제(SUAT)를 통해 네비게이션 환경의 계층적 공간 근접성 지식베이스를 구축한다. 이를 통해 지역, 객체, 지역-객체 간 인접 관계를 파악한다.
둘째, 에이전트-환경 상호작용을 통해 의미론적 토폴로지 맵을 동적으로 구축하고, 다단계 추론 네비게이션 알고리즘(MRNA)을 제안한다. MRNA는 구축된 근접성 지식베이스를 활용하여 다양한 실행 가능한 경로를 계획하고 탐색한다.
셋째, 근접성 적응형 주의 모듈(PAAM)과 잔차 융합 방법(RFM)을 도입하여 보다 정확한 네비게이션 의사결정 신뢰도를 얻는다.
실험 결과, HSPR 모델은 REVERIE, SOON, R2R, R4R 벤치마크 데이터셋에서 우수한 성능을 보였다. 이를 통해 제안 방법의 효과성을 검증하였다.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Ming Xu,Zilo... um arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11541.pdfTiefere Fragen