이 논문은 실세계 환경에서 자연어 지침을 따르며 장애물과 보행자를 피해 이동하는 자율 에이전트의 능력을 다룹니다. 기존 비전-언어 네비게이션 방법은 주로 비현실적인 시뮬레이터 환경에서 작동하며 주변 환경 피드백을 의사결정에 반영하지 않습니다.
이를 해결하기 위해 CorNav라는 새로운 제로샷 프레임워크를 제안합니다. CorNav는 두 가지 핵심 기능을 갖추고 있습니다:
또한 Unreal Engine 5를 사용하여 보다 사실적인 3D 시뮬레이터를 개발했습니다. 이를 바탕으로 제로샷 멀티태스크 네비게이션 벤치마크인 NavBench를 구축했습니다. 실험 결과, CorNav가 모든 태스크에서 기존 방법보다 크게 우수한 성능을 보였습니다.
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Xiwen Liang,... ที่ arxiv.org 03-15-2024
https://arxiv.org/pdf/2306.10322.pdfสอบถามเพิ่มเติม