Основні поняття
Sicheres Verstärkungslernen ermöglicht optimale Politiken unter Berücksichtigung von Sicherheitsbeschränkungen.
Статистика
In unserem Fall, di = 1, wenn der Arm mit dem Hindernis kollidiert, sonst ist es 0.
Wir verwendeten separate Feedforward-MLP-Policynetze mit zwei versteckten Schichten, jeweils mit 64 Neuronen, 1000 Schritten pro Epoche, maximal 200 Epochen Training und maximaler Anzahl von Schritten pro Episode = 500.
Цитати
"Sicheres Verstärkungslernen ermöglicht optimale Politiken unter Berücksichtigung von Sicherheitsbeschränkungen während des Lernens."
"Die Integration eines Roboterarms in die Safety Gym-Umgebung eröffnet neue Forschungsperspektiven für die Mensch-Roboter-Interaktion."