Der Artikel führt den DeePRC-Algorithmus ein, einen direkten datengetriebenen Ansatz für die Regelung linearer zeitinvarianter (LTI) Systeme, die iterative Aufgaben ausführen.
Der Kernaspekt ist, dass DeePRC aus vorherigen Iterationen lernt, um seine Leistung zu verbessern und den optimalen Kostenwert zu erreichen. Dazu verwendet DeePRC eine inputoutput-konvexe Sicherheitsmenge und eine Endkostenfunktion, die aus vorherigen Trajektorien entworfen werden.
Der Artikel zeigt, dass der nominale DeePRC-Algorithmus Eigenschaften wie rekursive Machbarkeit, asymptotische Stabilität, nicht-steigende Iterationskosten und asymptotische Konvergenz zum unendlichen Horizont-Optimum aufweist.
Um eine globale Konvergenz in endlichen Iterationen zu gewährleisten, entwickelt der Artikel eine aktive Explorationsvariante von DeePRC. Diese verwendet einen linkskernbasierten Eingangsentwurf in einem rohrbasierten Rahmen und bietet sichere Konvergenzgarantien ausgehend von einer einzigen anfänglichen sicheren Trajektorie.
Darüber hinaus präsentiert der Artikel eine End-to-End-Formulierung des zweistufigen Ansatzes, bei der das Störungsdesignverfahren in die Planungsphase integriert wird.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies