Core Concepts
Durch die Einbeziehung von Vorwissen in den Abtastprozess kann ein aktiver Lernalgorithmus die Erkundung auf Regionen mit hoher empirischer Diskrepanz zwischen beobachteten Daten und einem unvollkommenen Vormodell der Dynamik ausrichten. Dies beschleunigt das Lernen und reduziert gleichzeitig die Modellunsicherheit.
Abstract
Der Artikel präsentiert einen aktiven Lernalgorithmus für das Erlernen von Systemdynamiken, der Vorwissen durch die explizite Einbeziehung in den Abtastprozess nutzt. Der Algorithmus lenkt die Exploration auf Regionen, in denen eine hohe empirische Diskrepanz zwischen den beobachteten Daten und einem unvollkommenen Vormodell der Dynamik besteht.
Durch numerische Experimente zeigt der Artikel, dass diese Strategie Regionen hoher Diskrepanz erforscht und das Lernen beschleunigt, während gleichzeitig die Modellunsicherheit reduziert wird. Der Artikel beweist auch, dass der aktive Lernalgorithmus eine konsistente Schätzung der zugrunde liegenden Dynamik liefert, indem er eine explizite Konvergenzrate für die maximale Vorhersagevarianz angibt.
Der Algorithmus wird auf ein unterbetätigtes Pendelsystem und auf die MuJoCo-Umgebung des Half-Cheetah-Systems angewendet. Die Ergebnisse zeigen, dass der Ansatz die Modellgenauigkeit im Vergleich zu rein datengetriebenen Methoden verbessert, ohne die Explorationseffizienz zu beeinträchtigen. Darüber hinaus kann das gelernte Modell erfolgreich für die Steuerung des Half-Cheetah-Systems verwendet werden.
Stats
Die wahre Dynamik des Pendelsystems ist gegeben durch: ml^2 \ddot{\theta} + 3mgl \sin(\theta) = 3u.
Die Vorkenntnis über das Pendelsystem ist ungenau mit g = 9.0, m = 0.5 und l = 2.0.
Quotes
"Durch die Einbeziehung von Vorwissen in den Abtastprozess kann ein aktiver Lernalgorithmus die Erkundung auf Regionen mit hoher empirischer Diskrepanz zwischen beobachteten Daten und einem unvollkommenen Vormodell der Dynamik ausrichten."
"Der Algorithmus lenkt die Exploration auf Regionen, in denen eine hohe empirische Diskrepanz zwischen den beobachteten Daten und einem unvollkommenen Vormodell der Dynamik besteht."