이 논문은 제로샷 비전-언어 네비게이션(VLN) 문제를 탐구하고 TINA(Thinking, Interaction, and Action) 프레임워크를 제안한다. TINA 프레임워크는 대규모 언어 모델(LLM) 기반 에이전트에 지각 정보를 면밀히 검토하고 핵심 단서를 자율적으로 질의할 수 있는 기능을 부여한다. 이를 통해 에이전트의 지각 능력을 향상시키고 네비게이션 절차의 설명 가능성과 투명성을 개선한다.
TINA 프레임워크는 LLM 기반 에이전트와 3개의 보조 모듈로 구성된다:
실험 결과는 TINA 프레임워크가 기존 제로샷 네비게이션 모델과 일부 지도 학습 기반 방법을 능가하는 성능을 보여줌을 확인했다. 또한 QAI 모듈이 네비게이션 과정의 설명 가능성을 높이는 것으로 나타났다.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Dingbang Li,... klokken arxiv.org 03-15-2024
https://arxiv.org/pdf/2403.08833.pdfDypere Spørsmål