toplogo
Sign In

ビジョン言語モデルを使った社会的に適切なロボットナビゲーション


Core Concepts
ビジョン言語モデルを使って、ロボットが人間中心の環境で社会的に適切な行動を取ることができる。
Abstract
本論文では、ビジョン言語モデル(VLM)を使った新しいアプローチ「VLM-Social-Nav」を提案している。VLM-Social-Navは、ロボットの観測結果からVLMを使って社会的に適切な行動を推論し、それを基に最適なロボットの行動を生成する。 具体的には、まず知覚モデルを使って人間や扉などの重要な社会的エンティティを検出する。次に、VLMにこれらの情報とテキストプロンプトを入力し、社会的に適切な行動を生成する。この生成された行動に基づいて、ロボットの移動計画を立てる。 これにより、大規模なデータセットに依存せずに、状況に応じた社会的に適切な行動を取ることができる。実験では、4つの異なる社会的ナビゲーションシナリオでVLM-Social-Navの有効性を示し、従来手法と比較して平均成功率36.37%以上、平均衝突率20.00%以上の改善を達成した。また、ユーザスタディでも最も社会的に適切な行動を生成することが確認された。
Stats
ロボットの平均成功率は36.37%以上改善された。 ロボットの平均衝突率は20.00%以上改善された。
Quotes
なし

Deeper Inquiries

VLM-Social-Navは屋外シナリオにも適用可能か?

VLM-Social-Navは基本的に屋内での実験に焦点を当てて開発されましたが、提供された例(Fig. 3)によると、VLM-Social-Navは屋外シナリオにも拡張可能です。現在の焦点は、この取り組みをグローバルな屋外ナビゲーションシステムに発展させることです。VLM-Social-Navは、特定の社会的エンティティをVLMにクエリすることで機能します。より一般的なケースでVLMを機能させるためには、VLMにいつ、どこでクエリを行うかを慎重に考慮する必要があります。VLMは、単一の決定的なアクションを行うのではなく、選択肢を提示されるときに優れたナビゲーションオプションを提供する方法についてさらに探求することが重要です。
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star