本稿では、連続的な状態行動空間を持つ平均報酬強化学習問題に対し、状態行動空間を適応的に離散化する新しいアルゴリズムZoRLを提案し、その優れた性能を理論と実験両面から示した。
本稿では、準ニュートン法の考え方を強化学習に応用し、方策反復法のヘッセ行列を効率的に近似することで、計算コストを抑えつつ収束速度を向上させた新しいアルゴリズム「準方策反復法(QPI)」を提案する。
この論文では、モデル情報が未知の2人プレイヤーゼロサムマルコフゲームにおいて、ゲーム理論的に最適な値に確率1で収束する、新しい多段階ミニマックスQ学習アルゴリズムを提案しています。
強化学習の主要アルゴリズムは分類論的サイバネティクスのフレームワークに収まる。
好みベースフィードバックを活用したRLの効率的な実現に焦点を当てる。
提案されたアルゴリズムは、高い確率で改善された後悔を達成し、以前の結果よりも優れています。
非線形システムの強化学習において、凸最適化を使用して最適Q関数の近似を行うアルゴリズムが収束することが示されました。