This research paper introduces a novel method for improving the reliability of robot navigation in unknown environments by leveraging the power of foundation models and a multi-expert decision-making framework.
본 논문에서는 자연어 명령어를 통해 새로운 환경에서 사전 학습 없이도 로봇이 특정 객체를 찾아갈 수 있도록 하는 제로샷 객체 탐색 (L-ZSON) 과제를 위한 새로운 비전 언어 모델인 VLTNet을 제안합니다.
This paper proposes VLTNet, a novel framework leveraging vision-language models and Tree-of-Thoughts reasoning, to enhance zero-shot object navigation in robots using natural language instructions.
본 논문에서는 복잡한 3D 환경을 온라인으로 업데이트되는 계층적 3D 장면 그래프로 표현하고, 이를 활용하여 LLM에 계층적 프롬프트를 제공함으로써 정확하고 빠르며 설명 가능한 제로샷 객체 탐색 프레임워크인 SG-Nav를 제안합니다.
SG-Nav is a novel framework that leverages the reasoning capabilities of Large Language Models (LLMs) and the rich contextual information of 3D scene graphs to achieve efficient and explainable zero-shot object navigation.
提案されたOpenFMNavは、自然言語指示を理解し、効果的なオープンセットゼロショットナビゲーションを実行するために基礎モデルを活用します。
OpenFMNav proposes a framework for open-set zero-shot object navigation using foundation models to understand free-form natural language instructions effectively.