Core Concepts
Effizientes Online-Verstärkungslernen in episodischen Markov-Entscheidungsprozessen mit unbekannter Dynamik.
Abstract
Einleitung:
Markov-Entscheidungsprozesse (MDP) für sequenzielle Entscheidungsfindung.
Online-Verstärkungslernen in episodischen MDPs.
Beiträge:
Algorithmus mit eO(LX√TA) Regret.
Reduzierung des Rechenaufwands im Vergleich zu bestehenden Arbeiten.
Verwandte Arbeiten:
Optimismusprinzip in Entscheidungsfindung.
Vergleich mit anderen Algorithmen wie UCRL2 und UCBVI.
Algorithmus:
UCRL-LP Algorithmus mit linearem Programm für Occupancy Measure Update.
Regret-Bound von O(LX√TA log(TXA/δ)).
Simulationsergebnisse:
UCRL-LP übertrifft UCRL2 in der Regret-Leistung.
Stats
Der Algorithmus erreicht eO(LX√TA) Regret.
Der Regret-Bound beträgt O(LX√TA log(TXA/δ)).