核心概念
提案されたアルゴリズムは、高い確率で改善された後悔を達成し、以前の結果よりも優れています。
要約
この記事では、線形混合MDPにおけるバンディットフィードバックと未知の遷移に焦点を当て、新しいアルゴリズムの開発が行われました。提案されたアルゴリズムは、従来の手法よりも高い確率で改善された後悔を達成することが示されました。具体的には、未知の遷移パラメーターの推定や信頼区間の構築、損失関数の推定などが行われました。さらに、オンラインミラーディセント(OMD)を使用して占有率測定値を更新する方法も導入されました。
統計
θk,h = arg minθ∈Rd k−1 X i=1 (ϕ⊤si,h,ai,hθ − δsi,h+1)2 + λk∥θ∥2 2,
Reg(K) = K X k=1 ⟨qP,πk - qP,π∗, ℓk⟩,
uk(s, a) = max b P ∈Pk q b P ,πk(s, a),
Lk(π) = E[H X h=1 ℓk,h (sh, ah) | P, π],
∥St∥Y −1 t ≤ √λt 4 + 4 √λt log(2d det(Yt)) / 2 λt ζ!,
引用
"提案されたアルゴリズムは、高い確率で改善された後悔を達成し、以前の結果よりも優れています。"
"未知の遷移パラメーターの推定や信頼区間の構築などが行われました。"
"オンラインミラーディセント(OMD)を使用して占有率測定値を更新する方法も導入されました。"