대형 언어 모델을 활용하여 인간과 유사한 인지 프로세스를 모방한 시각-언어 네비게이션 에이전트를 제안한다.
객체 간 관계를 시간과 공간 차원에서 모델링하여 에이전트의 네비게이션 성능을 향상시킴