이 논문은 대형 언어 모델(LLM)을 기반으로 한 인지 에이전트 Cog-GA를 소개한다. Cog-GA는 시각-언어 네비게이션 연속 환경(VLN-CE) 작업을 위해 설계되었다.
Cog-GA는 인간과 유사한 인지 프로세스를 모방하는 두 가지 전략을 사용한다:
인지 지도 구축: Cog-GA는 시간, 공간, 의미 정보를 통합하는 인지 지도를 구축하여 LLM의 공간 기억력을 향상시킨다.
예측 메커니즘: Cog-GA는 경로 예측기를 사용하여 탐색 공간을 최적화하고, 이중 채널 장면 설명을 통해 LLM이 현재 목표에 집중할 수 있도록 한다.
또한 Cog-GA는 이전 네비게이션 경험에 대한 반사 메커니즘을 통해 지속적인 학습과 적응적 재계획을 수행한다.
실험 결과, Cog-GA는 VLN-CE 벤치마크에서 최첨단 성능을 보였으며, 인간과 유사한 네비게이션 행동을 시뮬레이션할 수 있음을 입증했다. 이 연구는 전략적이고 해석 가능한 VLN-CE 에이전트 개발에 크게 기여한다.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Zhiyuan Li, ... às arxiv.org 09-24-2024
https://arxiv.org/pdf/2409.02522.pdfPerguntas Mais Profundas