Ein Rahmenwerk zur Entwicklung von Feedback-Reglern, das die Optimierung und Modellfreiheit von Deep Reinforcement Learning mit den Stabilitätsgarantien der Youla-Kučera-Parametrisierung kombiniert.
Durch die Einführung einer strukturierten Belohnungsfunktion können Reinforcement-Learning-Algorithmen Steuerungsstrategien lernen, die vorgegebene Leistungsanforderungen wie Einschwingzeit und Regelfehler erfüllen, ohne dass ein mathematisches Modell des Systems bekannt sein muss.
Durch Belohnungsformung kann ein Reinforcement-Learning-Algorithmus eine Politik lernen, die vorgegebene Leistungsanforderungen wie Einschwingzeit und Regelfehler erfüllt, ohne dass ein mathematisches Modell des Systems bekannt ist.