이 논문은 제로샷 비전-언어 네비게이션(VLN) 문제를 탐구하고 TINA 프레임워크를 제안한다. TINA 프레임워크는 대규모 언어 모델(LLM) 기반 에이전트에 시각적 인지 능력을 보완하여 지침과 환경 정보를 효과적으로 연결할 수 있게 한다.
TINA 프레임워크는 LLM 기반 에이전트와 3개의 보조 모듈로 구성된다:
실험 결과, TINA 프레임워크는 기존 제로샷 네비게이션 모델과 일부 지도 학습 기반 방법을 능가하는 성능을 보였다. 또한 QAI 모듈을 통해 네비게이션 과정의 설명 가능성이 향상되었다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Dingbang Li,... kl. arxiv.org 03-15-2024
https://arxiv.org/pdf/2403.08833.pdfDybere Forespørgsler