이 논문은 연속 환경에서의 비전-언어 네비게이션(VLN-CE) 문제를 다룬다. VLN-CE 과제에서 에이전트는 자연어 지침을 이해하고 3D 환경에서 목적지까지 이동해야 한다. 기존 접근법은 현재 위치의 단일 뷰 관찰에 의존하여 시야 가림으로 인한 문제가 있었다.
이를 해결하기 위해 저자들은 신경 방사 표현(HNR) 모델을 제안한다. HNR 모델은 관찰된 환경을 특징 클라우드에 인코딩하고, 볼륨 렌더링과 계층적 인코딩을 통해 미래 환경의 다중 수준 의미 표현을 예측한다. 이 예측된 미래 환경 표현을 활용하여 탐색 가능한 미래 경로 트리를 구축하고, 효율적인 병렬 평가를 통해 최적의 경로를 선택한다.
실험 결과, 제안 방법은 기존 방법 대비 우수한 성능을 보였다. 특히 계층적 인코딩과 다중 수준 의미 정렬을 통해 주변 맥락을 통합하고 시야 가림으로 인한 빈 영역의 특징을 효과적으로 예측할 수 있었다. 또한 미래 경로 트리 구축과 병렬 평가를 통해 장기적인 계획을 수립할 수 있었다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Zihan Wang,X... a las arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01943.pdfConsultas más profundas