Główne pojęcia
대규모 언어 모델의 광범위한 지식과 추론 능력을 활용하여 익숙하지 않은 지침과 알 수 없는 환경에서도 적응할 수 있는 제로샷 네비게이션 에이전트를 개발한다.
Streszczenie
이 논문은 제로샷 비전-언어 네비게이션(VLN) 문제를 탐구하고 TINA(Thinking, Interaction, and Action) 프레임워크를 제안한다. TINA 프레임워크는 대규모 언어 모델(LLM) 기반 에이전트에 지각 정보를 면밀히 검토하고 핵심 단서를 자율적으로 질의할 수 있는 기능을 부여한다. 이를 통해 에이전트의 지각 능력을 향상시키고 네비게이션 절차의 설명 가능성과 투명성을 개선한다.
TINA 프레임워크는 LLM 기반 에이전트와 3개의 보조 모듈로 구성된다:
- 비주얼 퍼셉션(VP) 모듈은 환경에 대한 텍스트 설명을 생성한다.
- 질문-답변 상호작용(QAI) 모듈은 에이전트의 추론 결과를 기반으로 핵심 단서를 찾기 위해 질문을 생성하고 답변을 통합한다.
- 트래젝토리 메모라이저(TM) 모듈은 에이전트의 역사적 행동을 요약하여 메모리 은행에 저장한다.
실험 결과는 TINA 프레임워크가 기존 제로샷 네비게이션 모델과 일부 지도 학습 기반 방법을 능가하는 성능을 보여줌을 확인했다. 또한 QAI 모듈이 네비게이션 과정의 설명 가능성을 높이는 것으로 나타났다.
Statystyki
에이전트가 특정 관찰 지점에서 주변 물체까지의 거리를 계산하기 위해 DETR 객체 탐지와 Mask2Former 분할을 사용하여 픽셀 단위로 거리를 측정한다.
3미터 이내의 물체에 대해 거리 정보를 환경 설명에 포함한다.
Cytaty
"LLM은 광범위한 지식과 추론 능력으로 인해 제로샷 네비게이션을 달성할 수 있는 잠재력을 보여준다."
"QAI 모듈은 에이전트의 추론 결과를 활용하여 관련 시각적 단서를 찾고 이를 후보 지점 설명에 통합함으로써 에이전트의 지각 능력을 향상시킨다."