Der Artikel stellt ein neues Optimierungsziel, das Augmented Lagrangian Laplacian Objective (ALLO), vor, um die Laplace-Darstellung in Reinforcement Learning Umgebungen zu lernen.
Die Laplace-Darstellung ist eine vielversprechende Methode, um informative Zustandsrepräsentationen zu lernen, die Exploration, Generalisierung und Transfer in großen RL-Problemen erleichtern. Bisherige Ansätze wie das Graph Drawing Objective (GDO) und das Generalized Graph Drawing Objective (GGDO) haben jedoch Schwächen: Sie hängen von schwer einstellbaren Hyperparametern ab, konvergieren zu beliebigen Rotationen der gewünschten Eigenvektoren und können die zugehörigen Eigenwerte nicht genau approximieren.
Das vorgeschlagene ALLO-Ziel überwindet diese Probleme. Es verwendet Stop-Gradient-Operatoren, um die Symmetrie der Eigenvektorrotationen zu brechen, und fügt Lagrange-Terme hinzu, um die Eigenwerte natürlich zu schätzen. Die Autoren zeigen theoretisch, dass die Eigenvektoren und Eigenwerte der Laplace-Matrix die einzigen stabilen Gleichgewichtspunkte des ALLO-Optimierungsproblems sind, unabhängig von Hyperparametern.
In Experimenten zeigt sich, dass ALLO die Laplace-Darstellung über verschiedene Umgebungen hinweg robust und genau approximiert, sowohl für die Eigenvektoren als auch die Eigenwerte. Ablationsanalysen bestätigen die Notwendigkeit der einzelnen Komponenten des Ziels.
翻譯成其他語言
從原文內容
arxiv.org
深入探究