非線形システムの強化学習において、凸最適化を使用して最適Q関数の近似を行うアルゴリズムが収束することが示されました。
提案されたアルゴリズムは、高い確率で改善された後悔を達成し、以前の結果よりも優れています。
好みベースフィードバックを活用したRLの効率的な実現に焦点を当てる。
強化学習の主要アルゴリズムは分類論的サイバネティクスのフレームワークに収まる。