Khái niệm cốt lõi
ロボットの多様感覚理解と推論能力を向上させるため、多様感覚大言語モデルを活用したロボット知覚-計画フレームワーク「RoboMP2」を提案する。
Tóm tắt
本論文では、ロボットの多様感覚知覚と計画能力を向上させるため、「RoboMP2」と呼ばれる新しいフレームワークを提案している。
RoboMP2は以下の2つの主要コンポーネントから構成される:
- 目標条件付き多様感覚知覚器(GCMP)
- 多様感覚大言語モデルを活用し、複雑な参照表現を持つ物体の認識・位置特定が可能
- 従来の視覚モデルでは困難だった、属性や空間関係、知識推論に基づく物体認識を実現
- 検索補強多様感覚計画器(RAMP)
- 最適な実行計画を生成するため、関連性の高い過去の計画を検索・活用
- 単なるテキスト命令のみに頼るのではなく、環境の多様感覚情報も考慮
- 冗長な参照例による注意散漫を抑制
実験の結果、RoboMP2は既存手法に比べ、VIMAベンチマークで約10%、実世界タスクで40%の性能向上を達成した。これは、RoboMP2の多様感覚理解と推論能力の高さを示している。
Thống kê
従来の視覚モデルは、属性や空間関係、知識推論に基づく複雑な物体参照表現の認識が困難である。
単なるテキスト命令のみに頼る計画生成手法は、環境の多様感覚情報を考慮できず、一般化性が低い。
RoboMP2は、VIMAベンチマークで約10%、実世界タスクで40%の性能向上を達成した。
Trích dẫn
"従来の視覚モデルは、属性や空間関係、知識推論に基づく複雑な物体参照表現の認識が困難である。"
"単なるテキスト命令のみに頼る計画生成手法は、環境の多様感覚情報を考慮できず、一般化性が低い。"
"RoboMP2は、VIMAベンチマークで約10%、実世界タスクで40%の性能向上を達成した。"