Concepts de base
대규모 언어 모델의 광범위한 지식과 추론 능력을 활용하여 익숙하지 않은 지침과 알 수 없는 환경에서도 적응할 수 있는 제로샷 네비게이션 에이전트를 개발한다.
Résumé
이 논문은 제로샷 비전-언어 네비게이션(VLN) 문제를 탐구하고 TINA 프레임워크를 제안한다. TINA 프레임워크는 대규모 언어 모델(LLM) 기반 에이전트에 시각적 인지 능력을 보완하여 지침과 환경 정보를 효과적으로 연결할 수 있게 한다.
TINA 프레임워크는 LLM 기반 에이전트와 3개의 보조 모듈로 구성된다:
- 시각적 인지(VP) 모듈은 환경에 대한 텍스트 설명을 생성한다.
- 질문-답변 상호작용(QAI) 모듈은 에이전트의 추론 결과를 기반으로 환경 정보에 대한 질문을 생성하고 답변을 통해 후보 경로에 대한 정보를 보완한다.
- 경로 기억기(TM) 모듈은 에이전트의 과거 행동을 요약하여 저장한다.
실험 결과, TINA 프레임워크는 기존 제로샷 네비게이션 모델과 일부 지도 학습 기반 방법을 능가하는 성능을 보였다. 또한 QAI 모듈을 통해 네비게이션 과정의 설명 가능성이 향상되었다.
Stats
에이전트의 행동 선택 확률은 P(vt|st, Ot, Ct, R[:t-1]I; Θ)로 계산된다.
시각적 인지 모듈은 24방향의 파노라마 이미지를 텍스트 설명으로 변환한다.
객체와 에이전트 간 거리는 객체 영역의 깊이 정보 평균값으로 계산한다.
Citations
"LLM은 광범위한 지식과 추론 능력으로 인해 제로샷 네비게이션에 유망한 방법을 제시한다."
"TINA 프레임워크는 에이전트가 지각 정보를 면밀히 검토하고 환경 내 핵심 단서를 자율적으로 질문할 수 있게 하여 지각 능력을 향상시킨다."