Core Concepts
大規模な言語およびビジョン-言語モデルを使用して、障害物のある環境でロボットが効果的にナビゲートするためのフレームワークを提案します。
Abstract
この論文は、大規模な言語およびビジョン-言語モデルを使用して、ロボットが障害物のある環境でインタラクティブにナビゲートするための新しいフレームワークを提案しています。以下は内容の概要です:
イントロダクション
ロボットナビゲーションは重要であり、人間とリアルタイムな対話が求められている。
大規模な言語モデル(GPT-3.5)とオープンセットのビジョン-言語モデル(Grounding DINO)を使用して、アクション感知コストマップを作成し、効果的な経路計画を行うことが可能。
提案されたフレームワーク
大規模な言語およびビジョン-言語モデルからランドマークやそれに関連するアクション感知属性を抽出し、テキスト指示からバウンディングボックスに変換。
アクション感知コストマップ構築により、実行可能な経路が生成される。
評価
シミュレートされた環境と実世界のシナリオでフレームワークの性能を評価。
実験ではカーテンや芝生などさまざまなトラバーサブルオブジェクトに対応し、提案されたフレームワークの有効性と汎用性が示されている。
Stats
大規模な言語およびビジョン-言語モデルを使用してエンド・トゥ・エンド・システムが達成可能。
Quotes
"大規模な言語およびビジョン-言語モデルは、ロボットが障害物のある環境でインタラクティブにナビゲートするための新しい手法を提供します。"
"提案されたフレームワークはさまざまな環境で効果的であり、多様なトラバーサブルオブジェクトやシナリオに適応します。"