Core Concepts
Eine neue Methode für eingeschränktes Reinforcement-Lernen, die eine lineare geglättete logarithmische Barrierefunktion auf einen zusätzlichen Sicherheitskritiker anwendet, um die numerischen Probleme zu beheben, die die Anwendung der logarithmischen Barrierefunktionsmethode erschweren.
Abstract
Der Artikel stellt eine neue Methode für eingeschränktes Reinforcement-Lernen vor, die als CSAC-LB (Constrained Soft Actor-Critic with Log Barrier Function) bezeichnet wird.
Der Hauptbeitrag ist die Anwendung einer linearen geglätteten logarithmischen Barrierefunktion auf einen zusätzlichen Sicherheitskritiker, um die numerischen Probleme zu beheben, die die Anwendung der logarithmischen Barrierefunktionsmethode erschweren. Dadurch kann CSAC-LB ohne Vortraining wettbewerbsfähige Leistungen auf verschiedenen eingeschränkten Steuerungsaufgaben mit unterschiedlichen Schwierigkeitsgraden erzielen.
Die Autoren zeigen, dass CSAC-LB im Vergleich zu anderen State-of-the-Art-Baselines wie SAC-Lagrangian und WCSAC die beste Gesamtleistung in allen getesteten Aufgaben erzielt. Insbesondere in einer Roboterlocomotionsaufgabe ist CSAC-LB das einzige Verfahren, das einen erfolgreichen Transfer vom Simulator auf den realen Roboter ohne weitere Feinabstimmung erreicht.
Stats
Keine relevanten Kennzahlen oder Zahlen im Artikel enthalten.
Quotes
Keine markanten Zitate im Artikel enthalten.