核心概念
幾何学的ファブリックを使用したポリシー学習により、高度に作動する手に対して安全で高性能な操作行動を生成することができる。
要約
この論文では、強化学習(RL)、第二次の制御フレームワーク、物理的な動力学を組み合わせることで、高性能な操作スキルを順序付けるための一般的なフレームワークを提案している。主な貢献は以下の通りである:
RL ポリシーと行動力学を組み合わせた一般的なフレームワーク: 人工的な動力学と実際の動力学を混合した階層型の第二次の動力学システム。
加速度とジャークの制約を扱うための閉形式解を持つ二次計画問題。
最新の形式の幾何学的ファブリックの提案: ロボット関節の位置制約を扱い、指先接触を促進し、高度に作動する手に対して力のアクション空間を開く。
RLと幾何学的ファブリック、シミュレーションを大規模に組み合わせて、器用な手の中での立方体の再配向スキルを訓練し、優れたシミュレーション-実世界間の性能を達成。
統計
高度に作動する手による立方体の再配向タスクにおいて、幾何学的ファブリックを用いたポリシーは、従来のDeXtremeポリシーと比較して、連続成功回数(CS)を3倍以上向上させた。
幾何学的ファブリックを用いたポリシーは、回転毎分(RPM)の指標でも最も高い性能を示した。
幾何学的ファブリックを用いたポリシーは、5Hz以上の高周波成分のアクションノイズをほとんど生成しないのに対し、DeXtremeポリシーはそうした高周波ノイズを多く含んでいた。