Garantierte Erfüllung harter Beschränkungen durch Reinforcement Learning mit POLICEd RL
POLICEd RL ist ein neuartiger RL-Algorithmus, der darauf ausgelegt ist, affine harte Beschränkungen in Echtzeit mit einer Black-Box-Umgebung durchzusetzen. Der Schlüssel ist es, die gelernte Politik so zu gestalten, dass sie in einer Pufferregion um den unsicheren Bereich herum affin ist, was die einfache Verifizierung der Beschränkungserfüllung ermöglicht.