Основні поняття
RISEは、単一視点の部分的な3Dポイントクラウドから直接連続的なロボットアクションを予測する、エンドツーエンドのベースラインです。
Анотація
RISEは、以下の3つの主要コンポーネントから構成されています:
疎なスパース3Dエンコーダ: ポイントクラウドを効率的に圧縮し、疎なトークンに変換します。
トランスフォーマー: 疎なポジショニングエンコーディングを使用して、ポイントトークンの3D空間関係をモデル化し、アクション特徴を抽出します。
ディフュージョンヘッド: アクション特徴を連続的なロボットアクションに変換します。
RISEは、50個の実世界デモンストレーションを使用して学習されます。実験結果では、RISEが現在の代表的な2Dおよび3Dポリシーを大幅に上回る性能を示しています。特に、物体位置の変化、新しい作業空間、カメラビューの変化などに対する一般化能力が優れています。
Статистика
単一視点の部分的なポイントクラウドから直接連続的なロボットアクションを予測できる
50個の実世界デモンストレーションを使用して学習される
物体位置の変化、新しい作業空間、カメラビューの変化などに対する一般化能力が優れている
Цитати
"RISEは、単一視点の部分的な3Dポイントクラウドから直接連続的なロボットアクションを予測する、エンドツーエンドのベースラインです。"
"RISEは、50個の実世界デモンストレーションを使用して学習され、現在の代表的な2Dおよび3Dポリシーを大幅に上回る性能を示しています。"
"RISEの一般化能力は特に優れており、物体位置の変化、新しい作業空間、カメラビューの変化などに対応できます。"