核心概念
NavCoT는 LLM을 세계 모델과 네비게이션 추론 에이전트로 활용하여 행동 결정 과정을 단순화하고 해석 가능성을 높인다.
摘要
이 논문은 비전-언어 네비게이션(VLN) 문제를 해결하기 위해 Navigational Chain-of-Thought(NavCoT)라는 새로운 전략을 소개한다. NavCoT는 LLM을 세계 모델과 네비게이션 추론 에이전트로 활용하여 행동 결정 과정을 단순화하고 해석 가능성을 높인다.
구체적으로, 각 시간 단계에서 LLM은 다음과 같은 3단계의 추론 과정을 거친다:
- 세계 모델로 작용하여 지시에 따라 다음 관찰을 상상한다.
- 상상한 관찰과 가장 잘 일치하는 관찰을 선택한다.
- 이전 단계의 추론을 바탕으로 행동을 결정한다.
이를 통해 행동 예측이 효과적으로 단순화되고 해석 가능성이 향상된다. 또한 형식화된 레이블을 사용하여 LLM이 원하는 추론 출력을 생성하도록 학습시킨다.
실험 결과, NavCoT는 다양한 VLN 벤치마크에서 직접 행동 예측 모델과 제로샷 추론 모델보다 월등한 성능을 보였다. 또한 단순한 매개변수 효율적 파인튜닝을 통해 최근 GPT4 기반 모델을 약 7% 상대적으로 개선하였다. NavCoT는 실제 로봇 응용 프로그램 개발에 도움이 될 것으로 기대된다.
統計資料
비전-언어 네비게이션 작업은 복잡한 3D 환경에서 자연어 지시에 따라 이동하는 임베디드 에이전트를 요구한다.
최근 연구는 LLM이 네비게이션 추론 정확도와 해석 가능성을 향상시킬 수 있음을 보여주었다.
그러나 LLM을 오프라인으로 사용하면 VLN 작업과 LLM 학습 데이터 간의 도메인 갭이 크다는 문제가 있다.
引述
"NavCoT는 LLM을 세계 모델과 네비게이션 추론 에이전트로 활용하여 행동 결정 과정을 단순화하고 해석 가능성을 높인다."
"실험 결과, NavCoT는 다양한 VLN 벤치마크에서 직접 행동 예측 모델과 제로샷 추론 모델보다 월등한 성능을 보였다."
"단순한 매개변수 효율적 파인튜닝을 통해 NavCoT는 최근 GPT4 기반 모델을 약 7% 상대적으로 개선하였다."