비전-언어 내비게이션을 위한 비디오 기반 VLM인 NaVid는 최신 기술을 선도하는 성능을 보여줍니다.
본 논문에서는 비전-언어 내비게이션(VLN)에서 기존의 정책 학습 방식의 한계를 극복하기 위해 에너지 기반 내비게이션 정책(ENP) 프레임워크를 제안합니다. ENP는 에너지 기반 모델을 사용하여 상태-행동 쌍의 결합 분포를 모델링하고, 전문가의 행동을 모방하여 전문가 정책과 전역적으로 일치하도록 학습합니다.