Core Concepts
Studie von CMDPs mit adversen Verlusten und harten Einschränkungen.
Abstract
Untersuchung von Online-Lernproblemen in CMDPs mit adversen Verlusten und stochastischen harten Einschränkungen.
Zwei Szenarien: Minimierung der kumulativen positiven Einschränkungsverletzung und Erfüllung der Einschränkungen in jedem Durchgang.
BV-OPS-Algorithmus: Sublineare Regret- und Einschränkungsverletzung.
S-OPS-Algorithmus: Sublinearer Regret und Sicherheitseigenschaft.
Konzentrationsschranken für Kosten und Übergänge.
Garantie für sublinearen Regret und Sicherheitseigenschaft.
Stats
"Unser Algorithmus garantiert, dass die kumulative Einschränkungsverletzung sublinear ist."
"Der Algorithmus ist sicher mit hoher Wahrscheinlichkeit."
Quotes
"Unser Algorithmus garantiert, dass die kumulative Einschränkungsverletzung sublinear ist."
"Der Algorithmus ist sicher mit hoher Wahrscheinlichkeit."