Der Artikel stellt ein neues Optimierungsziel, das Augmented Lagrangian Laplacian Objective (ALLO), vor, um die Laplace-Darstellung in Reinforcement Learning Umgebungen zu lernen.
Die Laplace-Darstellung ist eine vielversprechende Methode, um informative Zustandsrepräsentationen zu lernen, die Exploration, Generalisierung und Transfer in großen RL-Problemen erleichtern. Bisherige Ansätze wie das Graph Drawing Objective (GDO) und das Generalized Graph Drawing Objective (GGDO) haben jedoch Schwächen: Sie hängen von schwer einstellbaren Hyperparametern ab, konvergieren zu beliebigen Rotationen der gewünschten Eigenvektoren und können die zugehörigen Eigenwerte nicht genau approximieren.
Das vorgeschlagene ALLO-Ziel überwindet diese Probleme. Es verwendet Stop-Gradient-Operatoren, um die Symmetrie der Eigenvektorrotationen zu brechen, und fügt Lagrange-Terme hinzu, um die Eigenwerte natürlich zu schätzen. Die Autoren zeigen theoretisch, dass die Eigenvektoren und Eigenwerte der Laplace-Matrix die einzigen stabilen Gleichgewichtspunkte des ALLO-Optimierungsproblems sind, unabhängig von Hyperparametern.
In Experimenten zeigt sich, dass ALLO die Laplace-Darstellung über verschiedene Umgebungen hinweg robust und genau approximiert, sowohl für die Eigenvektoren als auch die Eigenwerte. Ablationsanalysen bestätigen die Notwendigkeit der einzelnen Komponenten des Ziels.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Diego Gomez,... a las arxiv.org 04-04-2024
https://arxiv.org/pdf/2310.10833.pdfConsultas más profundas