Core Concepts
ビジョン言語モデルを使って、ロボットが人間中心の環境で社会的に適切な行動を取ることができる。
Abstract
本論文では、ビジョン言語モデル(VLM)を使った新しいアプローチ「VLM-Social-Nav」を提案している。VLM-Social-Navは、ロボットの観測結果からVLMを使って社会的に適切な行動を推論し、それを基に最適なロボットの行動を生成する。
具体的には、まず知覚モデルを使って人間や扉などの重要な社会的エンティティを検出する。次に、VLMにこれらの情報とテキストプロンプトを入力し、社会的に適切な行動を生成する。この生成された行動に基づいて、ロボットの移動計画を立てる。
これにより、大規模なデータセットに依存せずに、状況に応じた社会的に適切な行動を取ることができる。実験では、4つの異なる社会的ナビゲーションシナリオでVLM-Social-Navの有効性を示し、従来手法と比較して平均成功率36.37%以上、平均衝突率20.00%以上の改善を達成した。また、ユーザスタディでも最も社会的に適切な行動を生成することが確認された。
Stats
ロボットの平均成功率は36.37%以上改善された。
ロボットの平均衝突率は20.00%以上改善された。