Alapfogalmak
Das Ziel ist es, eine Strategie zu finden, die die durchschnittlichen Kosten über einen unendlichen Zeithorizont in einer Familie von diskreten Markov-Entscheidungsprozessen mit unbekanntem Parameter minimiert. Dazu wird ein auf Thompson-Sampling basierender Lernalgorithmus mit dynamisch angepassten Episoden vorgeschlagen, der eine obere Schranke für die Bayessche Regret-Komplexität liefert.
Kivonat
Der Artikel befasst sich mit dem Problem der optimalen Steuerung einer Familie von diskreten Markov-Entscheidungsprozessen (MDPs) mit unbekanntem Parameter θ ∈ Θ und unendlichem Zustandsraum X = Zd
+. Es wird ein Bayesianischer Ansatz verfolgt, bei dem der unbekannte Parameter θ∗ aus einer festen Priori-Verteilung ν gezogen wird.
Um den MDP optimal zu steuern, wird ein auf Thompson-Sampling basierender Lernalgorithmus mit dynamisch angepassten Episoden vorgeschlagen. Zu Beginn jeder Episode wird die Posterior-Verteilung verwendet, um einen Parameterschätzwert zu erzeugen, der dann die in der Episode angewandte Strategie bestimmt.
Um die Stabilität der resultierenden Markov-Kette sicherzustellen, werden Ergodizitätsannahmen eingeführt. Basierend darauf und unter Verwendung der Lösung der durchschnittlichen Kosten-Bellman-Gleichung wird eine obere Schranke von ˜O(dhdp
|A|T) für die Bayessche Regret-Komplexität des Algorithmus hergeleitet.
Abschließend werden zwei Warteschlangenmodelle mit unbekannter Dynamik betrachtet, um die Anwendbarkeit des Algorithmus zu veranschaulichen.
Statisztikák
Für jeden Parameterwert θ ∈ Θ existiert eine eindeutige optimale Strategie π∗
θ, die die durchschnittlichen Kosten über den unendlichen Zeithorizont minimiert.
Die Markov-Kette, die sich aus dem MDP (X, A, c, Pθ1) ergibt, wenn Strategie π∗
θ2 angewendet wird, ist geometrisch ergodisch mit Ergodizitätskoeffizient γg
θ1,θ2 ∈ (0, 1) und stationärer Verteilung µθ1,θ2.
Der geometrische Ergodizitätskoeffizient ist gleichmäßig nach unten durch 1 beschränkt: γg
∗ := supθ1,θ2∈Θ γg
θ1,θ2 < 1.
Die Markov-Kette, die sich aus dem MDP (X, A, c, Pθ1) ergibt, wenn Strategie π∗
θ2 angewendet wird, ist polynomial ergodisch mit Lyapunov-Funktion V p
θ1,θ2, Konstanten βp
θ1,θ2, bp
θ1,θ2 > 0 und αp
θ1,θ2 ∈ [r/(r + 1), 1).
Idézetek
"Um den MDP optimal zu steuern, wird ein auf Thompson-Sampling basierender Lernalgorithmus mit dynamisch angepassten Episoden vorgeschlagen."
"Basierend auf den Ergodizitätsannahmen und unter Verwendung der Lösung der durchschnittlichen Kosten-Bellman-Gleichung wird eine obere Schranke von ˜O(dhdp
|A|T) für die Bayessche Regret-Komplexität des Algorithmus hergeleitet."