Keskeiset käsitteet
ロボット操作タスクを、環境内の意味的に重要な3Dキーポイント間の関係として表現することで、複雑なタスクを汎用的な方法で実行できる。
Tiivistelmä
ReKep: ロボット操作のための関係的なキーポイント制約の時空間推論
本論文は、多段階、実環境、両手、反応的な動作を必要とする多様なロボット操作タスクを、タスク固有のデータや環境モデルを用いることなく実行するための、スケーラブルで効率的なフレームワークを提案することを目的とする。
本論文では、ロボット操作タスクにおける制約を表現するために、関係的なキーポイント制約(ReKep)と呼ばれる新しい手法を提案する。ReKepは、環境内の意味的に重要な3Dキーポイントの集合を数値コストにマッピングするPython関数として制約を表現する。各関数は、キーポイントに対する(非線形になる可能性のある)算術演算で構成され、キーポイント間の望ましい「関係」をエンコードする。キーポイントは、ロボットアーム、オブジェクトパーツ、他のエージェントなど、環境内の異なるエンティティに属することができる。
操作タスクは、時空間的な依存関係を持つ複数の段階を含む場合があるため、ReKepを用いて、各段階iに対して2種類の制約を指定する。1つ目は、ステージiの終わりに達成されるべきキーポイント関係をエンコードするサブゴール制約C(i)_sub-goalの集合であり、2つ目は、ステージi内のすべての状態で満たされるべきキーポイント関係をエンコードするパス制約C(i)_pathの集合である。
これらのReKep制約を用いて、ロボットの動作は、制約付き最適化問題として定式化される。この最適化問題は、与えられたReKep制約と補助的なコスト(衝突回避、到達可能性など)を満たしながら、サブゴール(SE(3)エンドエフェクタ姿勢として表現される)のシーケンスと、各サブゴールを達成するための動作のシーケンスを見つけることを目的とする。
ReKepの重要な利点は、事前にトレーニングされた大規模ビジョンモデル(LVM)とビジョン言語モデル(VLM)によって自動的に合成できることである。具体的には、シーン内のきめ細かく意味的に意味のあるキーポイントを提案するためにLVMを活用し、提案されたキーポイントを重ね合わせた視覚入力からPython関数として制約を記述するためにVLMを活用する。