Optimale Empfehlungen durch Kaskaden-Reinforcement-Learning
In diesem Artikel wird ein neuer Rahmen für Kaskaden-Reinforcement-Learning (Cascading RL) vorgestellt, der den Einfluss von Benutzerzuständen und Zustandsübergängen auf Empfehlungen berücksichtigt. Um die kombinatorische Aktionsraumherausforderung zu bewältigen, entwickeln die Autoren einen effizienten Orakel-Algorithmus BestPerm und präsentieren zwei Algorithmen, CascadingVI und CascadingBPI, die sowohl recheneffizient als auch stichprobeneffizient sind und nahezu optimale Regret- und Stichprobenkomplexitätsgarantien bieten.