本研究では、視覚言語モデル(VLM)を用いて平面図の解釈と、ロボットのナビゲーションプラン生成を行う新しいアプローチを提案している。
まず、平面図の視覚プロンプトを工夫することで、VLMが平面図の構造を理解しやすくする。具体的には、不要な情報を削除し、部屋や扉の位置情報を追加する。
次に、VLMに平面図と目的地の情報を与えると、ロボットが実行可能なナビゲーションプランを生成することができる。このプランには、扉の開閉や通過といった具体的な行動が含まれている。
実験では、平面図のサイズ、ナビゲーションタスクの難易度、ラベルの密度が、VLMの性能に与える影響を評価した。結果、より小さな平面図、簡単なタスク、密なラベルの付与で高い精度が得られることが分かった。
最後に、実際のロボットを用いて、VLMが生成したナビゲーションプランを実行する実証実験を行った。ロボットは平面図上の自己位置を特定し、プランに沿って移動することができた。
本研究は、VLMを用いたロボットナビゲーションの新しい可能性を示しており、今後の発展が期待される。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések