Effizientes und sicheres Lernen in eingeschränkten Markov-Entscheidungsprozessen durch regularisierte primal-duale Algorithmen
Wir präsentieren den ersten primal-dualen Algorithmus, der eine sublineare starke Regret-Garantie ohne Fehlerausgleich in unbekannten eingeschränkten Markov-Entscheidungsprozessen erreicht.