Core Concepts
オフラインデータセットの連続的な学習において、リプレイバッファの分布とモデルの分布のミスマッチを解決し、過去の知識を保持しつつ新しい知識を獲得することが重要である。
Abstract
本論文では、連続的なオフラインの強化学習(CORL)という新しい設定を提案している。CORLでは、エージェントが事前収集されたオフラインデータセットの連続的な学習を行う。しかし、リソースが限られた環境では、連続的な学習によって過去の知識を忘れてしまう問題(catastrophic forgetting)が生じる。
そこで本論文では、2つの重要な提案を行っている。
モデルベースのエクスペリエンス選択(MBES)
オフラインデータセットからリプレイバッファに保存するエピソードを選択する際に、学習済みのモデルの分布に近いものを選択する。
これにより、リプレイバッファとモデルの分布のミスマッチを解消する。
デュアルビヘイビアクローニング(DBC)
新しいタスクの学習と過去のタスクのクローニングの2つの目的を分離した新しいアーキテクチャを提案する。
これにより、2つの目的の矛盾を解消し、安定した学習を実現する。
提案手法OERは、広く使われているMujoco環境においてSOTAのベースラインを上回る性能を示している。
Stats
連続制御タスクにおいて、提案手法OERは他のベースラインと比べて最も高いパフォーマンスと最も低い忘却を示している。
特に、オフラインデータセットの質が低い(Medium-Random)場合に、OERの優位性が顕著に現れている。
Quotes
"オフラインデータセットの連続的な学習において、リプレイバッファの分布とモデルの分布のミスマッチを解決し、過去の知識を保持しつつ新しい知識を獲得することが重要である。"
"提案手法OERは、広く使われているMujoco環境においてSOTAのベースラインを上回る性能を示している。"