이 연구는 비전-언어 네비게이션(VLN) 과제에서 전문가 궤적을 활용하는 기존 접근법의 한계를 지적하고, 오프라인 강화학습(ORL)을 활용하여 이를 극복하는 새로운 방법론을 제안한다.
VLN 과제에서는 전문가 데이터를 수집하기 어려운 문제가 있다. 이를 해결하기 위해 저자들은 오프라인 데이터셋을 활용하는 VLN-ORL 문제 설정을 제안한다.
제안된 접근법은 보상 토큰을 활용하여 VLN 에이전트를 훈련한다. 이를 통해 서브 최적 데이터셋에서도 에이전트의 성능을 향상시킬 수 있다.
다양한 노이즈 모델을 활용하여 R2R 및 RxR 환경에 대한 오프라인 RL 벤치마크를 구축하였다.
제안된 보상 토큰 기반 접근법을 VLN⟳BERT 및 MTVM 모델에 적용한 결과, 기존 모델 대비 약 10-15% 향상된 성능을 보였다. 특히 Random-policy R2R 데이터셋에서는 VLN⟳BERT의 성능이 약 40% 향상되었다.
RxR 검증 세트의 다양한 난이도 subset에 대해서도 제안 기법이 일관되게 성능 향상을 보였다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies