Die Arbeit stellt einen neuen RL-Algorithmus namens POLICEd RL vor, der darauf ausgelegt ist, affine harte Beschränkungen in Echtzeit mit einer Black-Box-Umgebung durchzusetzen.
Der Schlüssel ist es, die gelernte Politik so zu gestalten, dass sie in einer Pufferregion um den unsicheren Bereich herum affin ist. Dies ermöglicht es, leicht zu überprüfen, ob Trajektorien die Beschränkung verletzen können.
Das Verfahren ist unabhängig von der Wahl des RL-Trainingsalgorithmus und kann sowohl für Systeme mit kontinuierlichen als auch diskreten Zustands- und Aktionsräumen angewendet werden. Darüber hinaus kann es Black-Box-Umgebungen durch die Verwendung eines lokalen Maßes für deren Nichtlinearität berücksichtigen.
Die Arbeit beweist analytische Bedingungen, unter denen die gelernte Politik die Erfüllung der Beschränkung garantiert. Außerdem wird gezeigt, dass die Frage nach der Existenz einer solchen beschränkungserfüllenden Politik in ein lösbares lineares Problem transformiert werden kann.
Schließlich werden mehrere numerische Beispiele präsentiert, die die Leistungsfähigkeit des POLICEd RL-Verfahrens im Vergleich zu repräsentativen Baselines demonstrieren.
To Another Language
from source content
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Jean-Baptist... ที่ arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13297.pdfสอบถามเพิ่มเติม