因子分解可能な行動空間を持つオフライン強化学習において、価値分解を用いたアプローチは、標準的な原子的な行動表現と比較して、特にデータセットが限られている場合に、有望なパフォーマンスと計算効率を提供する。
本稿では、データセット内の軌道から分岐を生成することでDecision Transformer (DT) を強化する拡散ベースの軌道分岐生成 (BG) を提案し、DTが劣った軌道に収束することを防ぎ、より良い軌道に移動できる方策を学習できるようにする。
オフライン強化学習における一般化の適切な活用方法として、行動の一般化と一般化の伝播の両方を緩やかに制御する「二重に緩やかな一般化(DMG)」という新しい概念を提案する。
本稿では、データセットの行動分布内に留まるように制約された潜在アクション空間におけるポリシー学習を行うことで、モデルベースのオフライン強化学習における価値過評価問題に対処する新しい手法、C-LAPを提案する。
Diffusion-DICEは、オフライン強化学習において、拡散モデルを用いて行動ポリシーを最適ポリシーに変換する新しいアルゴリズムであり、サンプル内ガイダンスと選択的行動選択を通じて、価値関数の誤差を最小限に抑えながら最適な行動を学習します。
本稿では、大規模なオフライン強化学習データから効率的にポリシーを学習するため、データセット蒸留の考え方を応用し、**行動値重み付けPBC(Av-PBC)**を用いたオフライン行動蒸留(OBD)を提案する。Av-PBCは、従来手法よりもタイトな蒸留性能保証を実現し、大規模データの学習に伴うコストやプライバシーの問題を軽減しながら、高性能なポリシーの学習を可能にする。
本稿では、オフライン視覚強化学習における課題である、表現学習の過剰適合と将来報酬の過大評価を、オンラインシミュレータを活用した補助的なオンライン環境を用いることで解決する、CoWorldと呼ばれる新しいモデルベースの転移RL手法を提案する。
拡散モデルの概念を強化学習に応用することで、価値関数を学習することなく、任意の初期状態から指定された目標状態に到達できる新たなオフライン目標到達学習手法を提案する。
本稿では、離散的な組み合わせ行動空間におけるオフライン強化学習のための新しい手法、Branch Value Estimation (BVE) を提案する。BVEは、行動空間を木構造として表現することで、サブアクション間の依存関係を効果的に捉えながら、各タイムステップで評価する行動の数を減らし、大規模な行動空間へのスケーリングを可能にする。
本稿では、行動ポリシーのQ値分布から不確実性を推定することで、オフライン強化学習におけるQ値の過大評価問題に対処する新しい手法、QDQを提案する。