核心概念
オフラインデータから意味的に意味のある離散的なスキルを自動的に抽出し、それらのスキルを活用することで、新しいタスクの効率的な学習を実現する。
要約
本論文は、オフラインデータから意味的に意味のある離散的なスキルを自動的に抽出し、それらのスキルを活用することで、新しいタスクの効率的な学習を実現する手法を提案している。
具体的には以下の3つのステップから成る:
- オフラインスキル抽出:
- 事前学習済みのVLM (Vision-Language Model) を使って、オフラインデータの画像の差分特徴量を抽出する。
- K-meansクラスタリングを用いて、これらの特徴量から意味的に意味のある離散的なスキルを自動的に抽出する。
- オフラインスキル学習:
- 抽出したスキルを表現するためのスキルデコーダを学習する。スキルIDと連続的な引数を入力として、低レベルの行動系列を出力する。
- スキル選択と引数選択のためのプライオアネットワークも学習する。
- オンラインスキルベースの強化学習:
- 学習したスキルデコーダを固定し、スキル選択と引数選択のためのポリシーを強化学習する。
- スキル選択と引数選択のプライオアネットワークを正則化項として使うことで、効率的な学習を実現する。
提案手法は、Franka Kitchenとライフロング学習ベンチマークLIBEROの複雑な操作タスクにおいて、従来手法と比較して高い サンプル効率と性能を示した。さらに、実世界のFurnitureBenchタスクでも良好な転移学習性能を示した。
統計
新しいタスクを学習するのに、従来手法と比べて10倍のサンプル効率向上を達成した。
LIBEROの40個の長期的な操作タスクにおいて、最高の性能を示した。
引用
"ロボットが新しいタスクを学習する際、既存のスキルを微調整するだけで済むため、効率的に学習できる。"
"提案手法は、オフラインデータから意味的に意味のある離散的なスキルを自動的に抽出し、それらのスキルを活用することで、新しいタスクの効率的な学習を実現する。"