이 논문은 제로샷 비전-언어 네비게이션(VLN) 문제를 탐구하고 TINA 프레임워크를 제안한다. TINA 프레임워크는 대규모 언어 모델(LLM) 기반 에이전트에 시각적 인지 능력을 보완하여 지침과 환경 정보를 효과적으로 연결할 수 있게 한다.
TINA 프레임워크는 LLM 기반 에이전트와 3개의 보조 모듈로 구성된다:
실험 결과, TINA 프레임워크는 기존 제로샷 네비게이션 모델과 일부 지도 학습 기반 방법을 능가하는 성능을 보였다. 또한 QAI 모듈을 통해 네비게이션 과정의 설명 가능성이 향상되었다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Dingbang Li,... a las arxiv.org 03-15-2024
https://arxiv.org/pdf/2403.08833.pdfConsultas más profundas