이 논문은 실세계 환경에서 자연어 지침을 따르며 장애물과 보행자를 피해 이동하는 자율 에이전트의 능력을 다룹니다. 기존 비전-언어 네비게이션 방법은 주로 비현실적인 시뮬레이터 환경에서 작동하며 주변 환경 피드백을 의사결정에 반영하지 않습니다.
이를 해결하기 위해 CorNav라는 새로운 제로샷 프레임워크를 제안합니다. CorNav는 두 가지 핵심 기능을 갖추고 있습니다:
또한 Unreal Engine 5를 사용하여 보다 사실적인 3D 시뮬레이터를 개발했습니다. 이를 바탕으로 제로샷 멀티태스크 네비게이션 벤치마크인 NavBench를 구축했습니다. 실험 결과, CorNav가 모든 태스크에서 기존 방법보다 크게 우수한 성능을 보였습니다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Xiwen Liang,... a las arxiv.org 03-15-2024
https://arxiv.org/pdf/2306.10322.pdfConsultas más profundas