Core Concepts
Durch Ausnutzung von Symmetrien in den Systemdynamiken kann die Lerneffizienz von modellbasierten Reinforcement-Learning-Methoden deutlich gesteigert werden, auch wenn die Belohnungsfunktion nicht dieselben Symmetrien aufweist.
Abstract
In dieser Arbeit wird eine Methode vorgestellt, um Systemdynamiken zu erlernen, die per Konstruktion bestimmte Symmetrien erfüllen. Dies ermöglicht es, a priori bekannte Symmetriestrukturen beim Erlernen eines Dynamikmodells zu berücksichtigen.
Der Ansatz basiert auf Cartans Methode der beweglichen Bezugssysteme, um das Systemverhalten in einem niedrigdimensionalen Koordinatenraum zu beschreiben, der die Symmetrien widerspiegelt. Dadurch kann ein kompakteres neuronales Netzwerk trainiert werden, das die symmetrischen Dynamiken effizient approximiert.
Die Experimente an zwei Beispielumgebungen ("Parking" und "Reacher") zeigen, dass der vorgeschlagene Ansatz insbesondere bei kleineren Netzwerkgrößen eine deutlich genauere Dynamikmodellierung ermöglicht als ein Standard-Lernverfahren ohne Symmetrieausnutzung.
Stats
Die Dynamik jedes Autos im Parkplatz-Szenario ist translations- und rotationsinvariant.
Die Dynamik des Reacher-Arms ist rotationsinvariant um den ersten Gelenkwinkel.
Quotes
"Durch Ausnutzung von Symmetrien in den Systemdynamiken kann die Lerneffizienz von modellbasierten Reinforcement-Learning-Methoden deutlich gesteigert werden, auch wenn die Belohnungsfunktion nicht dieselben Symmetrien aufweist."
"Der vorgeschlagene Ansatz ermöglicht es, a priori bekannte Symmetriestrukturen beim Erlernen eines Dynamikmodells zu berücksichtigen."