비전-언어 네비게이션 에이전트는 자연어 지침과 실시간 시각적 관찰을 활용하여 목적지까지 성공적으로 이동해야 한다. 이를 위해 에이전트는 다양한 네비게이션 모달리티(지침, 관찰, 네비게이션 기록)를 정렬하고 통합해야 한다. 본 연구에서는 교차 모달 대조 학습을 통한 이중 수준 정렬 프레임워크(DELAN)를 제안한다. 이 프레임워크는 융합 전 단계에서 다양한 네비게이션 관련 모달리티를 정렬함으로써 교차 모달 상호작용과 행동 의사결정을 향상시킨다.
연속 환경에서 비전-언어 네비게이션을 위해 신경 방사 표현 모델을 사용하여 미래 환경을 예측하고, 이를 활용한 전방 탐색 기법을 제안한다.
언어를 지각 표현으로 사용하여 데이터가 부족한 환경에서도 효과적으로 비전-언어 네비게이션을 수행할 수 있다.
오프라인 데이터셋을 활용하여 비전-언어 네비게이션 에이전트의 성능을 향상시킬 수 있는 새로운 접근법을 제안한다.
본 연구는 대규모 언어 모델과 오픈 어휘 탐지기를 활용하여 기존 반복적 비전-언어 네비게이션 기술의 한계를 극복하고자 한다. 이를 통해 다중 모달 신호 간 대응 관계를 설정하고, 구조화된 옴니그래프 표현을 제안하여 보다 효과적으로 네비게이션 지식을 활용할 수 있게 한다.
비전-언어 네비게이션 에이전트가 새로운 환경에 적응하면서도 이전에 학습한 지식을 유지할 수 있는 지속적 학습 능력을 갖추는 것이 중요하다.
본 연구는 계층적 공간 근접성 추론 모델(HSPR)을 제안하여, 비전-언어 네비게이션 과정에서 공간 근접성 지식을 활용하여 효율적인 탐색과 의사결정을 달성한다.
비전-언어 네비게이션 에이전트는 사용자의 자연어 지침에 포함된 오류에 취약하므로, 이를 탐지하고 위치를 확인하는 기능이 필요하다.
비전-언어 네비게이션 과제에서 관찰된 시각적 정보와 언어 지침 간의 의미적 격차를 줄이고 정렬을 단순화하기 위해 행동 원자 개념을 도입하였다.
NavCoT는 LLM을 세계 모델과 네비게이션 추론 에이전트로 활용하여 행동 결정 과정을 단순화하고 해석 가능성을 높인다.