이 논문은 제로샷 비전-언어 네비게이션(VLN) 문제를 탐구하고 TINA(Thinking, Interaction, and Action) 프레임워크를 제안한다. TINA 프레임워크는 대규모 언어 모델(LLM) 기반 에이전트에 지각 정보를 면밀히 검토하고 핵심 단서를 자율적으로 질의할 수 있는 기능을 부여한다. 이를 통해 에이전트의 지각 능력을 향상시키고 네비게이션 절차의 설명 가능성과 투명성을 개선한다.
TINA 프레임워크는 LLM 기반 에이전트와 3개의 보조 모듈로 구성된다:
실험 결과는 TINA 프레임워크가 기존 제로샷 네비게이션 모델과 일부 지도 학습 기반 방법을 능가하는 성능을 보여줌을 확인했다. 또한 QAI 모듈이 네비게이션 과정의 설명 가능성을 높이는 것으로 나타났다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Dingbang Li,... a las arxiv.org 03-15-2024
https://arxiv.org/pdf/2403.08833.pdfConsultas más profundas