Effiziente Verarbeitung und Analyse linearer Markov-Entscheidungsprozesse mit horizonfreier Regret-Schranke
Wir präsentieren den ersten Algorithmus, der eine horizonfreie Regret-Schranke für lineare Markov-Entscheidungsprozesse erreicht, bei denen die Größe des Übergangsmodells exponentiell oder sogar abzählbar unendlich sein kann.