이 연구는 체화된 로봇 에이전트를 위한 "길찾기 지침"을 자동으로 합성하는 새로운 접근법을 제시한다. 기존 접근법은 특정 시뮬레이션 플랫폼에 맞춰 설계된 인간 주석 데이터에 크게 의존했지만, 이 연구에서는 대형 언어 모델(LLM)의 문맥 학습 기능을 활용하여 몇 가지 참조 텍스트만으로도 지침을 생성한다. LLM 기반 시각 질문 답변 전략을 사용하여 환경에 대한 자세한 정보를 수집하고, 이를 LLM이 지침 합성에 활용한다. 이 접근법은 Matterport3D, AI Habitat, ThreeDWorld 등 다양한 시뮬레이션 플랫폼에서 구현되어 플랫폼 독립성을 입증한다. 사용자 연구를 통해 생성된 지침이 환경 세부 사항을 정확하게 포착하고 인간이 생성한 지침과 유사한 특성을 보인다는 것을 확인했다. 또한 REVERIE 데이터셋에서 제로 샷 내비게이션 실험을 수행한 결과, 기준선과 매우 유사한 성능을 보여 생성된 지침이 인간 주석 데이터를 대체할 수 있음을 입증했다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询