المفاهيم الأساسية
Splat-MOVERは、ガウシアンスプラッティングを利用して、セマンティックな理解と把握可能性の情報を3Dシーンに埋め込み、多段階のロボット操作タスクを可能にする。
الملخص
Splat-MOVERは、オープンボキャブラリーのロボット操作を実現するための3つのモジュールから構成されている:
- ASK-Splat:
- 3Dシーンにセマンティックな特徴とグラスプ可能性の情報を埋め込むガウシアンスプラッティングの表現
- 幾何学的、セマンティック、把握可能性の理解を可能にする
- SEE-Splat:
- 3Dオブジェクトマスクを使ったリアルタイムのシーン編集モジュール
- ロボットの操作によるオブジェクトの動きを反映した"デジタルツイン"を作成
- Grasp-Splat:
- ASK-Splat及びSEE-Splatを利用して、オブジェクトに合わせた把握候補を提案するグラスプ生成モジュール
これらのモジュールを組み合わせたSplat-MOVERは、自然言語による多段階操作タスクの指示を受け取り、実行可能な動作計画を生成する。
Splat-MOVERは、既存手法と比較して、単一段階のオープンボキャブラリー操作タスクで大幅な性能向上を示し、さらに多段階操作タスクにも対応できる。これは、シーンの動的な変化を反映できるSEE-Splatの機能によるものである。
الإحصائيات
単一段階のクッキングタスクにおいて、Splat-MOVERは把握成功率100%を達成し、LERF-TOGOの40%、F3RMの30%を大幅に上回った。
単一段階の切断タスクでは、Splat-MOVERの把握成功率が85%に対し、LERF-TOGOは35%、F3RMは60%であった。
単一段階の掃除タスクでは、Splat-MOVERが90%の成功率を示し、LERF-TOGOの25%、F3RMの75%を上回った。
単一段階のワークショップタスクでは、Splat-MOVERが95%の成功率を達成し、LERF-TOGOの100%、F3RMの70%と同等の性能を示した。
اقتباسات
"Splat-MOVERは、ガウシアンスプラッティングを利用して、セマンティックな理解と把握可能性の情報を3Dシーンに埋め込み、多段階のロボット操作タスクを可能にする。"
"ASK-Splatは、3Dシーンにセマンティックな特徴とグラスプ可能性の情報を埋め込むガウシアンスプラッティングの表現を提供し、幾何学的、セマンティック、把握可能性の理解を可能にする。"
"SEE-Splatは、3Dオブジェクトマスクを使ったリアルタイムのシーン編集モジュールで、ロボットの操作によるオブジェクトの動きを反映した"デジタルツイン"を作成する。"
"Grasp-Splatは、ASK-Splat及びSEE-Splatを利用して、オブジェクトに合わせた把握候補を提案するグラスプ生成モジュールである。"