Der Artikel stellt ein neues Optimierungsziel, das Augmented Lagrangian Laplacian Objective (ALLO), vor, um die Laplace-Darstellung in Reinforcement Learning Umgebungen zu lernen.
Die Laplace-Darstellung ist eine vielversprechende Methode, um informative Zustandsrepräsentationen zu lernen, die Exploration, Generalisierung und Transfer in großen RL-Problemen erleichtern. Bisherige Ansätze wie das Graph Drawing Objective (GDO) und das Generalized Graph Drawing Objective (GGDO) haben jedoch Schwächen: Sie hängen von schwer einstellbaren Hyperparametern ab, konvergieren zu beliebigen Rotationen der gewünschten Eigenvektoren und können die zugehörigen Eigenwerte nicht genau approximieren.
Das vorgeschlagene ALLO-Ziel überwindet diese Probleme. Es verwendet Stop-Gradient-Operatoren, um die Symmetrie der Eigenvektorrotationen zu brechen, und fügt Lagrange-Terme hinzu, um die Eigenwerte natürlich zu schätzen. Die Autoren zeigen theoretisch, dass die Eigenvektoren und Eigenwerte der Laplace-Matrix die einzigen stabilen Gleichgewichtspunkte des ALLO-Optimierungsproblems sind, unabhängig von Hyperparametern.
In Experimenten zeigt sich, dass ALLO die Laplace-Darstellung über verschiedene Umgebungen hinweg robust und genau approximiert, sowohl für die Eigenvektoren als auch die Eigenwerte. Ablationsanalysen bestätigen die Notwendigkeit der einzelnen Komponenten des Ziels.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문