Core Concepts
ユーザーの状態と遷移を考慮した新しいカスケーディング強化学習フレームワークが提案された。
Abstract
カスケーディングバンディットからカスケーディングRLへの進化
ユーザーの過去の行動や状態遷移を考慮した提案
カスケーディングVIとCascadingBPIアルゴリズムの開発と実験結果
Stats
˜O(H√HSNK) regret, which matches a known lower bound for the general episodic RL setting up to ˜O(√H).
˜O( H3SNε2 ) sample complexity.
N ∈ {10, 15, 20, 25} and |A| ∈ {820, 2955, 7240, 14425}.
δ = 0.005, K = 100000, H = 3, m = 3, S = 20.
Quotes
"カスケードバンディットからカスケードRLへの進化"
"提案されたフレームワークは、実世界のシナリオに適用可能"