이 논문은 언어를 지각 표현으로 사용하여 비전-언어 네비게이션을 수행하는 방법을 제안한다. 기존의 접근법은 비전 모델의 연속적인 특징을 사용하지만, 데이터가 부족한 환경에서는 어려움이 있다. 이에 반해 언어 기반 접근법은 다음과 같은 장점을 가진다:
적은 수의 실제 트레이닝 데이터(10-100개)로도 GPT-4와 같은 강력한 언어 모델을 활용하여 합성 데이터를 생성할 수 있다. 이를 통해 작은 언어 모델(LLaMA2)을 효과적으로 파인튜닝할 수 있다.
언어 표현은 도메인 간 전이가 용이하다. 실험 결과, 합성 환경(ALFRED)에서 학습한 모델을 실제 환경(R2R)으로 전이할 때 언어 기반 모델이 비전 기반 모델보다 우수한 성능을 보였다.
언어 표현은 비전 특징과 결합하여 성능을 더욱 향상시킬 수 있다. 실험 결과, 언어 특징을 비전 특징에 추가하면 기존 비전 기반 모델의 성능을 개선할 수 있다.
종합적으로 이 논문은 언어를 지각 표현으로 사용하여 데이터가 부족한 환경에서도 효과적으로 비전-언어 네비게이션을 수행할 수 있음을 보여준다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Bowen Pan,Ra... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2310.07889.pdfDeeper Inquiries