Core Concepts
Wenn einer der Diskontierungsfaktoren in der Ersatzbelohnung für LTL-Ziele gleich 1 gesetzt wird, kann die Bellman-Gleichung mehrere Lösungen haben, was zu einer ungenauen Bewertung der erwarteten Rückgabe führen kann. Eine hinreichende Bedingung für die Eindeutigkeit der Lösung ist, dass die Lösung für alle Zustände in einer ablehnenden Bottom-Strongly-Connected-Komponente (BSCC) gleich 0 ist.
Abstract
Der Artikel untersucht die Eindeutigkeit der Lösung für die Bellman-Gleichung, die bei der Verwendung von Ersatzbelohnungen mit zwei Diskontierungsfaktoren für lineare temporale Logik (LTL)-Ziele auftritt.
Zunächst wird gezeigt, dass die Bellman-Gleichung multiple Lösungen haben kann, wenn einer der Diskontierungsfaktoren auf 1 gesetzt wird. Dies kann zu einer ungenauen Bewertung der erwarteten Rückgabe und somit zu suboptimalen Strategien führen.
Um die eindeutige Lösung zu identifizieren, schlagen die Autoren eine hinreichende Bedingung vor: Die Lösung für alle Zustände in einer ablehnenden Bottom-Strongly-Connected-Komponente (BSCC) muss gleich 0 sein. Unter dieser Bedingung zeigen sie, dass die Lösung für die Zustände mit Diskontierung eindeutig ist, da der Bellman-Operator in diesen Zuständen immer Kontraktionen aufweist. Außerdem lässt sich die Lösung für die Zustände ohne Diskontierung dann eindeutig aus den Zuständen mit Diskontierung ableiten.
Die Autoren beweisen die Eindeutigkeit der Lösung zunächst für den Fall, dass der Diskontierungsfaktor kleiner als 1 ist. Für den Fall, dass einer der Diskontierungsfaktoren gleich 1 ist, zeigen sie die Eindeutigkeit der Lösung unter der vorgeschlagenen hinreichenden Bedingung.
Stats
Keine relevanten Statistiken oder Kennzahlen im Artikel enthalten.
Quotes
Keine markanten Zitate im Artikel enthalten.