本稿では、データセットの行動分布内に留まるように制約された潜在アクション空間におけるポリシー学習を行うことで、モデルベースのオフライン強化学習における価値過評価問題に対処する新しい手法、C-LAPを提案する。
Diffusion-DICEは、オフライン強化学習において、拡散モデルを用いて行動ポリシーを最適ポリシーに変換する新しいアルゴリズムであり、サンプル内ガイダンスと選択的行動選択を通じて、価値関数の誤差を最小限に抑えながら最適な行動を学習します。
本稿では、大規模なオフライン強化学習データから効率的にポリシーを学習するため、データセット蒸留の考え方を応用し、**行動値重み付けPBC(Av-PBC)**を用いたオフライン行動蒸留(OBD)を提案する。Av-PBCは、従来手法よりもタイトな蒸留性能保証を実現し、大規模データの学習に伴うコストやプライバシーの問題を軽減しながら、高性能なポリシーの学習を可能にする。
本稿では、オフライン視覚強化学習における課題である、表現学習の過剰適合と将来報酬の過大評価を、オンラインシミュレータを活用した補助的なオンライン環境を用いることで解決する、CoWorldと呼ばれる新しいモデルベースの転移RL手法を提案する。
拡散モデルの概念を強化学習に応用することで、価値関数を学習することなく、任意の初期状態から指定された目標状態に到達できる新たなオフライン目標到達学習手法を提案する。
本稿では、離散的な組み合わせ行動空間におけるオフライン強化学習のための新しい手法、Branch Value Estimation (BVE) を提案する。BVEは、行動空間を木構造として表現することで、サブアクション間の依存関係を効果的に捉えながら、各タイムステップで評価する行動の数を減らし、大規模な行動空間へのスケーリングを可能にする。
本稿では、行動ポリシーのQ値分布から不確実性を推定することで、オフライン強化学習におけるQ値の過大評価問題に対処する新しい手法、QDQを提案する。
本稿では、オフライン強化学習における従来軽視されてきた分布外状態問題に着目し、分布外状態への補正と分布外行動の抑制を統合したシンプルかつ効果的な新手法SCASを提案する。
オフライン強化学習における価値関数の過大評価問題を軽減するため、推定誤差を引き起こしやすい状態のみを選択的にペナルティ化する新しいQ学習アルゴリズム、EPQを提案する。
本稿では、オフライン強化学習(RL)における条件付き教師あり学習(RCSL)の制限を克服するため、RCSLの安定性とQ関数のステッチング能力を効果的に組み合わせた、Q支援条件付き教師あり学習(QCS)を提案する。