Core Concepts
Dieser Artikel stellt einen Algorithmus zur Berechnung einer präferenzbasierten Strategie für einen Roboter in einer stochastischen Umgebung vor. Der Algorithmus berücksichtigt dabei die teilweise geordneten Präferenzen des Benutzers über zeitlich erweiterte Ziele.
Abstract
Der Artikel behandelt das Problem der präferenzbasierten Planung (PBP) in stochastischen Systemen, die als Markov-Entscheidungsprozesse (MDPs) modelliert sind. Die Präferenzen des Benutzers werden durch teilweise geordnete temporale Ziele in Linear Temporal Logic on Finite Traces (LTLf) ausgedrückt.
Der Lösungsansatz umfasst zwei Schlüsselschritte:
- Entwicklung eines Verfahrens zur Umwandlung einer teilweise geordneten Präferenz über temporale Ziele in ein Rechenmodell, genannt Präferenzautomat (PDFA), das ein Halbautomaton mit einer partiellen Ordnung über Akzeptanzbedingungen ist.
- Beweis, dass das Finden einer am meisten bevorzugten Strategie äquivalent ist zum Berechnen einer Pareto-optimalen Strategie in einem Multi-Ziel-MDP, das aus dem ursprünglichen MDP, dem Präferenzautomaten und der gewählten stochastischen Ordnungsrelation konstruiert wird.
Der Artikel illustriert den Ansatz anhand eines Beispiels eines Bieneroboters, der Blumen in einem Garten bestäuben soll, und zeigt die Effizienz des Algorithmus. Abschließend werden mögliche zukünftige Forschungsrichtungen diskutiert.
Stats
Es gibt keine spezifischen Kennzahlen oder Zahlen, die im Artikel hervorgehoben werden.
Quotes
"Menschliche Präferenzen sind nicht immer durch vollständige lineare Ordnungen darstellbar: Es ist natürlich, teilweise geordnete Präferenzen zu verwenden, um unvergleichbare Ergebnisse auszudrücken."
"Um mit der teilweise geordneten Präferenz zu planen, führen wir die Ordnungstheorie ein, um eine Präferenz über zeitliche Ziele in eine Präferenz über Strategien für den MDP abzubilden."