核心概念
本稿では、新しいタスクに迅速に適応しながら過去の経験から貴重な知識を保持できる、生涯強化学習のための新しい PAC-Bayes アルゴリズムである EPIC を提案し、その有効性を実験と理論の両面から検証する。
要約
EPIC: PAC-Bayes 理論を用いた生涯強化学習
本稿では、生涯強化学習(RL)のための新しいアルゴリズムである EPIC (Empirical PAC-Bayes that Improves Continuously) を提案する。EPIC は、PAC-Bayes 理論を用いて、ワールドポリシーと呼ばれる共有ポリシー分布を学習する。このワールドポリシーにより、エージェントは新しいタスクに迅速に適応しながら、過去の経験から貴重な知識を保持することができる。
従来の深層強化学習は、多くのタスクで優れた成果を収めているが、データ効率の悪さが課題として挙げられる。現実世界では、エージェントが遭遇するタスクは完全に新規なものではなく、共通の特徴を持つタスク分布に属していることが多い。生涯強化学習は、エージェントがタスクのシーケンスと対話し、過去のタスクインスタンスから得た知識を活用して継続的にポリシーを適応・改善していくフレームワークである。
EPIC は、過去のタスクから学習した共通のポリシー分布を蒸留するために、ベイズ事後分布を利用する。この分布からポリシーをサンプリングし、新しいタスクの事前分布として機能させる。
1. PAC-Bayes フレームワーク
EPIC は、PAC-Bayes 理論の中核となる概念を活用し、生涯 RL の設定に対して U(P) を明示的に定式化し、それを用いて生涯学習の目的を達成するために U(P) を最小化するアルゴリズムを提案する。
2. アルゴリズム
EPIC は、デフォルトポリシーと呼ばれるポリシー分布 P を学習する。エージェントは新しいタスクを受け取ると、それを記憶し、そこから学習し、そして忘却する。エージェントは N 個のタスクをメモリに保持し、N 個のタスクごとにデフォルトポリシーを更新し、最新の N 個のタスクに基づいて学習コストを推定する。
3. 事後分布と事前分布
EPICG は、EPIC の実用的なアルゴリズムであり、デフォルトポリシーと事前ポリシーの分布に、パラメータθで特徴量の線形結合におけるギブス分布として定義されるポリシーを用いる。これらのパラメータは、上限値を最小化することで更新される。
4. EPICG-SAC
EPICG は、異なるタスクに対するポリシーパラメータの共有分布 P を効果的に学習する。新しいタスクを受け取ると、サンプリングされたポリシーパラメータθを用いてポリシー分布を学習する。さらに、このθを新しいタスクのデータを用いて最適化することで、特定のタスクに合わせてカスタマイズすることができる。EPICG-SAC は、EPICG フレームワークと単一タスクアルゴリズムである Soft Actor Critic を統合したものである。