Der Kern dieser Arbeit ist ein neuartiger Ansatz für sicheres Verstärkungslernen, der darauf abzielt, die Verhaltensweisen guter Trajektorien nachzuahmen und schlechte Trajektorien zu vermeiden, anstatt sich auf die Schätzung von Kostenfunktionen zu verlassen.
Adaptive Chance-Constraint-Sicherungen (ACS) gewährleisten Sicherheit und Optimierung im Verstärkungslernen.
Die gleichzeitige Optimierung von Richtlinien und unbekannten Sicherheitsbeschränkungen in der Verstärkungslernung ist entscheidend für die Sicherheit in dynamischen Umgebungen.
Sicheres Verstärkungslernen ermöglicht optimale Politiken unter Berücksichtigung von Sicherheitsbeschränkungen.