Core Concepts
Das Ziel ist es, ein sicheres Aktionsmodell zu lernen, das garantiert, dass jeder Plan, der mit dem gelernten Modell erstellt wird, mit dem tatsächlichen, unbekannten Aktionsmodell übereinstimmt. Dies ist wichtig für Anwendungen, in denen Ausführungsfehler inakzeptabel oder sehr kostspielig sind.
Abstract
Der Artikel befasst sich mit dem Problem des Lernens sicherer Aktionsmodelle für PDDL-Domänen (Planning Domain Definition Language) mit bedingten Effekten. Bisherige Algorithmen zum Lernen sicherer Aktionsmodelle konnten keine bedingten Effekte handhaben, obwohl diese in vielen Planungsproblemen üblich sind.
Der Artikel zeigt zunächst, dass das Lernen nicht-trivialer sicherer Aktionsmodelle mit bedingten Effekten exponentiell viele Beispiele erfordern kann. Dann wird eine Reihe von Annahmen identifiziert, unter denen das Lernen effizient möglich ist. Darauf aufbauend wird der Conditional-SAM-Algorithmus vorgestellt, der in der Lage ist, sichere Aktionsmodelle mit bedingten Effekten zu lernen.
Conditional-SAM wendet induktive Regeln an, um aus Beobachtungen von Zustandsübergängen die Vorbedingungen und Effekte der Aktionen zu lernen. Es wird bewiesen, dass das so gelernte Modell sicher ist, d.h. jeder Plan, der damit erstellt wird, ist auch im tatsächlichen, unbekannten Modell gültig. Außerdem wird gezeigt, dass Conditional-SAM eine asymptotisch optimale Anzahl an Beispielen benötigt, wenn die Größe der Antezedenzen der bedingten Effekte beschränkt ist.
Schließlich wird beschrieben, wie Conditional-SAM erweitert werden kann, um parametrisierte Aktionsmodelle (lifted) und universell quantifizierte Effekte zu unterstützen. Die experimentellen Ergebnisse zeigen, dass die von Conditional-SAM gelernten Modelle in den meisten getesteten Domänen in der Lage sind, fast alle Testprobleme korrekt zu lösen.
Stats
Die Komplexität von Conditional-SAM hängt exponentiell von der maximalen Größe der Antezedenzen der bedingten Effekte ab.
Conditional-SAM benötigt eine asymptotisch optimale Anzahl an Beispielen, wenn die Größe der Antezedenzen beschränkt ist.
Quotes
"Powerful domain-independent planners have been developed to solve various types of planning problems. These planners often require a model of the acting agent's actions, given in some planning domain description language."
"Since the learned model may differ from the domain's actual action model, it is important to study whether the plans provided offer execution-soundness guarantees."
"We aim for consistency between the validity of a plan as determined by the learned model and its validity within the actual model."