Globale Optimalität ohne Mischzeitrakeln in durchschnittlicher Belohnung RL via Multi-Level Actor-Critic
Der Multi-Level Actor-Critic (MAC) Algorithmus erreicht globale Optimalität in durchschnittlichen Belohnungs-MDPs, ohne Kenntnis der Mischzeit zu benötigen, und zeigt eine engere Abhängigkeit von der Mischzeit als vorherige Methoden.