Der Artikel führt den DeePRC-Algorithmus ein, einen direkten datengetriebenen Ansatz für die Regelung linearer zeitinvarianter (LTI) Systeme, die iterative Aufgaben ausführen.
Der Kernaspekt ist, dass DeePRC aus vorherigen Iterationen lernt, um seine Leistung zu verbessern und den optimalen Kostenwert zu erreichen. Dazu verwendet DeePRC eine inputoutput-konvexe Sicherheitsmenge und eine Endkostenfunktion, die aus vorherigen Trajektorien entworfen werden.
Der Artikel zeigt, dass der nominale DeePRC-Algorithmus Eigenschaften wie rekursive Machbarkeit, asymptotische Stabilität, nicht-steigende Iterationskosten und asymptotische Konvergenz zum unendlichen Horizont-Optimum aufweist.
Um eine globale Konvergenz in endlichen Iterationen zu gewährleisten, entwickelt der Artikel eine aktive Explorationsvariante von DeePRC. Diese verwendet einen linkskernbasierten Eingangsentwurf in einem rohrbasierten Rahmen und bietet sichere Konvergenzgarantien ausgehend von einer einzigen anfänglichen sicheren Trajektorie.
Darüber hinaus präsentiert der Artikel eine End-to-End-Formulierung des zweistufigen Ansatzes, bei der das Störungsdesignverfahren in die Planungsphase integriert wird.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Kai Zhang,Ri... في arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11883.pdfاستفسارات أعمق