Kontinuierliches Lernen menschlicher Präferenzen durch optimale Strategieregularisierung
Wir schlagen eine neue Methode namens Continual Optimal Policy Regularization (COPR) vor, bei der wir die Verteilung der optimalen Strategie berechnen und die aktuelle Strategie basierend auf der historisch optimalen Verteilung regularisieren, um katastrophales Vergessen zu verhindern.