Conceitos Básicos
OCE RLは、標準のリスク中立的なRLに削減することで最適に解決できる。
Resumo
本コンテンツでは、リスク感知型強化学習(RSRL)におけるOptimized Certainty Equivalent(OCE)リスクを取り上げています。提案されたアルゴリズムは、楽観的なRLオラクルまたはPOオラクルを使用して、一般的なOCEリスクに対応しています。楽観的フレームワークは、CVaRやエントロピックリスクなどの先行研究を統合し、拡張し、改善しています。POフレームワークは、離散予算条件下で真のリスクの下限値において両方の収束と局所改善を達成するアルゴリズムを提供します。
Estatísticas
OCEu(X) := max b∈supp(X){b + E[u(X - b)]}
uCVaRτ(t) = -τ^-1(-t)+, τ ∈ (0, 1]
uκ1,κ2 = κ1(t)+ - κ2(-t)+, 0 ≤ κ1 ≤ 1 < κ2
Markowitz’s mean-variance utility function
Exponential utility captures entropic risk