이 논문은 비전-언어 네비게이션(VLN) 문제를 해결하기 위해 Navigational Chain-of-Thought(NavCoT)라는 새로운 전략을 소개한다. NavCoT는 LLM을 세계 모델과 네비게이션 추론 에이전트로 활용하여 행동 결정 과정을 단순화하고 해석 가능성을 높인다.
구체적으로, 각 시간 단계에서 LLM은 다음과 같은 3단계의 추론 과정을 거친다:
이를 통해 행동 예측이 효과적으로 단순화되고 해석 가능성이 향상된다. 또한 형식화된 레이블을 사용하여 LLM이 원하는 추론 출력을 생성하도록 학습시킨다.
실험 결과, NavCoT는 다양한 VLN 벤치마크에서 직접 행동 예측 모델과 제로샷 추론 모델보다 월등한 성능을 보였다. 또한 단순한 매개변수 효율적 파인튜닝을 통해 최근 GPT4 기반 모델을 약 7% 상대적으로 개선하였다. NavCoT는 실제 로봇 응용 프로그램 개발에 도움이 될 것으로 기대된다.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Bingqian Lin... às arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07376.pdfPerguntas Mais Profundas