CRISPは、階層的強化学習(HRL)のための新しいアプローチを提案しています。HRLは複雑な長期課題を解決するための有望なアプローチですが、下位レベルの原始的な行動が非定常的であるため、上位レベルの方策を同時に学習することが不安定になります。
CRISPは、専門家のデモンストレーションを活用して、下位レベルの原始的な行動の進化に合わせて達成可能なサブゴールのカリキュラムを生成します。具体的には以下の手順を行います:
専門家のデモンストレーションを、下位レベルの原始的な行動を使って適応的にラベル付けする「Primitive Informed Parsing (PIP)」アプローチを提案しています。これにより、専門家のデモンストレーションから効率的なサブゴールの遷移データセットを生成できます。
生成したサブゴールの遷移データセットを使って、逆強化学習(IRL)の正則化目的関数を導入することで、下位レベルの原始的な行動に合わせて達成可能なサブゴールのカリキュラムを生成しています。
提案手法であるCRISPを複雑なロボット制御タスクに適用し、サンプル効率の向上と安定した学習を実現できることを示しています。また、実世界のロボット実験でも優れた一般化性能を示しています。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések