Core Concepts
실세계 환경에서 자율 에이전트가 자기 수정 계획을 통해 복잡한 지침을 이해하고 실행할 수 있는 능력을 보여줌.
Abstract
이 논문은 실세계 환경에서 자연어 지침을 따르며 장애물과 보행자를 피해 이동하는 자율 에이전트의 능력을 다룹니다. 기존 비전-언어 네비게이션 방법은 주로 비현실적인 시뮬레이터 환경에서 작동하며 주변 환경 피드백을 의사결정에 반영하지 않습니다.
이를 해결하기 위해 CorNav라는 새로운 제로샷 프레임워크를 제안합니다. CorNav는 두 가지 핵심 기능을 갖추고 있습니다:
미래 계획을 수정하고 행동을 조정하기 위해 환경 피드백을 활용
지침 해석, 장면 이해, 예측 행동 개선을 위한 다중 도메인 전문가 활용
또한 Unreal Engine 5를 사용하여 보다 사실적인 3D 시뮬레이터를 개발했습니다. 이를 바탕으로 제로샷 멀티태스크 네비게이션 벤치마크인 NavBench를 구축했습니다. 실험 결과, CorNav가 모든 태스크에서 기존 방법보다 크게 우수한 성능을 보였습니다.
Stats
평균 성공률 28.1%로 최고 기존 방법 대비 7.6% 향상
단계별 지침 따르기 태스크에서 8.6% 향상된 성공률 달성
Quotes
"실세계 환경은 장애물과 보행자로 가득해 자율 에이전트에게 자기 수정 계획 능력이 필수적이다."
"CorNav는 환경 피드백을 활용해 계획을 수정하고 행동을 조정할 수 있다."
"CorNav는 다중 도메인 전문가와 협력하여 복잡한 추론과 정확한 계획을 수립한다."