核心概念
本稿では、事前にトレーニングすることなく、あらゆる言語で表現された目標にロボットが移動できるようにする、VLM(Vision-Language Model)ベースの新しいナビゲーションフレームワーク「NavVLM」を提案する。
要約
NavVLM: VLMを用いたオープンセットナビゲーション
本稿では、オープンシーンにおいて、事前にトレーニングを行うことなく、特定および非特定のあらゆる言語目標にエージェントを自律的に移動させることを目的とした、新しいフレームワーク「NavVLM」が提案されています。
従来のナビゲーションシステムは、限られた語彙や事前に定義された環境に依存しており、人間の認知能力には及ばないものでした。近年、視覚情報と言語情報を統合して理解できるVLMが台頭し、ロボット工学やAI分野において注目を集めています。本研究では、このVLMの能力を活用し、より人間に近い柔軟かつ高度なナビゲーションを実現することを目指しています。
NavVLMは、VLMを中核として、既存のナビゲーションシステムと連携して動作します。エージェントは、環境からRGB-D画像として観測データを取得し、VLMは2段階のプロンプトを通じてナビゲーションを支援します。
目標への到達判定: 現在の観測データから目標が十分に近いかどうかを判断します。
移動方向の指示: 目標に到達するために、画像内のどの領域に移動すべきかを指示します。
VLMが明確な指示を与えない場合、エージェントは従来の探索手法(例:フロンティア探索)を用いて環境情報を収集します。しかし、VLMが関心領域を特定した場合は、いつでもVLMの指示が優先されます。