Die Autoren untersuchen ein neuartiges Schema zur Erstellung datengesteuerter Abstraktionen diskreter-Zeit-Stochastikprozesse in Form reicherer diskreter stochastischer Modelle. Der Kernaspekt ist, dass die Aktionen in diesen Modellen zu nicht-deterministischen Übergängen im Wahrscheinlichkeitsraum führen.
Der Ansatz baut auf früheren Arbeiten zur Erstellung datengesteuerter Abstraktionen auf, die jedoch oft eine starke Ausrichtung der Dynamik auf die gewählte Partitionierung voraussetzen. Um diese Einschränkung zu überwinden, führen die Autoren sogenannte Robust Markov Decision Processes (RMDP) ein, die eine Menge möglicher Übergangswahrscheinlichkeitsfunktionen beschreiben.
Durch die Verwendung von RMDPs können die Autoren eine größere Menge an Aktionen in der Abstraktion berücksichtigen und somit robustere Regler für eine breitere Palette von Szenarien synthetisieren. Sie zeigen, wie sich die resultierenden RMDP-Abstraktionen in äquivalente Intervall-MDPs (iMDPs) einbetten lassen, für die effiziente Lösungsverfahren existieren.
Die experimentellen Ergebnisse illustrieren die Vorteile des vorgeschlagenen Ansatzes gegenüber früheren Methoden, insbesondere wenn die Dynamik nicht gut mit der gewählten Partitionierung übereinstimmt.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Rudi Coppola... klo arxiv.org 04-15-2024
https://arxiv.org/pdf/2404.08344.pdfSyvällisempiä Kysymyksiä