SayNav는 새로운 환경에서 효율적으로 다중 물체를 탐색하고 위치를 파악하기 위해 대형 언어 모델(LLM)을 활용한다. 주요 내용은 다음과 같다:
탐색하는 환경의 3D 장면 그래프를 점진적으로 구축하고 확장한다. 이 장면 그래프는 공간 개념(객체, 가구, 방 등)과 이들 간의 관계를 나타낸다.
현재 위치 주변의 장면 그래프 일부를 추출하여 LLM에 입력으로 제공한다. LLM은 이를 바탕으로 단기 고수준 계획을 동적으로 생성한다. 이 계획에는 목표 물체의 가능한 위치와 탐색 순서 등이 포함된다.
LLM이 생성한 각 단계는 사전 학습된 저수준 플래너에 의해 실행된다. 저수준 플래너는 각 단계를 단거리 목표 지점 탐색 하위 작업으로 처리한다.
SayNav는 새로운 관측 정보를 바탕으로 계획을 지속적으로 업데이트하고 개선한다. 이를 통해 복잡한 다중 물체 탐색 작업을 효율적으로 수행할 수 있다.
실험 결과, SayNav는 강화학습 기반의 강력한 기준선 대비 8% 이상 높은 성공률을 달성했다. 이는 SayNav의 동적 계획 생성 능력이 새로운 환경에서 다중 물체를 효과적으로 찾아내는 데 도움이 된다는 것을 보여준다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問