이 연구는 체화된 로봇 에이전트를 위한 "길찾기 지침"을 자동으로 합성하는 새로운 접근 방식을 제시한다. 기존 접근 방식은 특정 시뮬레이션 플랫폼에 맞춰 설계된 인간 주석 데이터세트에 크게 의존했지만, 이 연구에서는 문맥 학습을 활용하여 소수의 참조 자료만으로 LLM이 지침을 생성할 수 있도록 한다. LLM 기반 시각적 질문 답변 전략을 사용하여 환경에 대한 자세한 정보를 수집하고, 이를 LLM이 지침 합성에 활용한다. 이 접근 방식은 Matterport3D, AI Habitat, ThreeDWorld 등 다양한 시뮬레이션 플랫폼에서 구현되어 플랫폼 독립성을 입증한다. 사용자 연구를 통해 생성된 지침이 환경 세부 사항을 정확하게 포착하고 인간이 생성한 지침과 유사한 특성을 보인다는 것을 확인했다. 또한 REVERIE 데이터세트에서 제로샷 네비게이션 실험을 수행한 결과, 기준선과 매우 유사한 성능을 보여 생성된 지침이 인간 주석 데이터를 대체할 수 있음을 입증했다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Vishnu Sasha... في arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11487.pdfاستفسارات أعمق