toplogo
Entrar

Tiefe Verstärkungslernen-Steuerung zur Störungsunterdrückung in einem nichtlinearen dynamischen System mit parametrischer Unsicherheit


Conceitos Básicos
Eine tiefe Verstärkungslernen-Steuerung wird entwickelt, um multiple unabhängige und zeitlich korrelierte stochastische Störungen in einem nichtlinearen flexiblen invertierten Pendelsystem mit unsicheren Modellparametern aktiv zu unterdrücken.
Resumo
Die Arbeit beschreibt eine Technik zur aktiven Unterdrückung multipler unabhängiger und zeitlich korrelierter stochastischer Störungen für ein nichtlineares flexibles invertiertes Pendel mit Wagen-System mit unsicheren Modellparametern. Das Steuerungsgesetz wird durch tiefes Verstärkungslernen, genauer gesagt mit einer kontinuierlichen Actor-Critic-Variante des Deep-Q-Lernens namens Deep Deterministic Policy Gradient, bestimmt, während die Störungsmagnitudes über unabhängige stochastische Prozesse evolvieren. Die Simulationsergebnisse werden dann mit denen eines klassischen Regelsystems verglichen. Das flexible invertierte Pendel mit Wagen-System wird als Balken mit Spitzenmasse modelliert, wobei die Flexibilitätseffekte als einfache lineare Federn am Pendelspitze und Massenschwerpunkt modelliert werden. Parametrische Unsicherheit wird durch Stichproben der Federsteifigkeiten und Dämpfungskoeffizienten aus Gaußverteilungen eingeführt. Der Deep Reinforcement Learning-Regler zeigt eine deutlich bessere Leistung als der klassische Proportional-Differential-Regler, insbesondere bei Vorhandensein der Störung der Wagengeschwindigkeit. Der DRL-Regler kann die Pendelwinkel über den gesamten Simulationszeitraum unter 11 Grad halten, während der PD-Regler die Kontrolle verliert, sobald diese Störung auftritt.
Estatísticas
Die durchschnittliche Belohnung des DRL-Reglers beträgt -212,35 mit einer Standardabweichung von 105,79, während der PD-Regler eine durchschnittliche Belohnung von -79.005,72 mit einer Standardabweichung von 132.957,99 erreicht.
Citações
"Der DRL-Regler erreicht nahezu die doppelte durchschnittliche Belohnung und die Hälfte der Standardabweichung des PD-Reglers, selbst wenn die Wagengeschwindigkeitsstörung vernachlässigt wird, da das System regelmäßig außerhalb des linearen Bereichs, üblicherweise als |ϕ, θ| < 15° betrachtet, angetrieben wird."

Perguntas Mais Profundas

Wie könnte die Leistung des DRL-Reglers durch die Einbeziehung realistischer Aktuatordynamiken und -beschränkungen weiter verbessert werden?

Die Leistung des DRL-Reglers könnte durch die Berücksichtigung realistischer Aktuatordynamiken und -beschränkungen weiter verbessert werden, indem man die Modellierung der Aktuatoren in die Regelung einbezieht. Dies würde die Übertragung des Reglers auf reale Systeme realistischer gestalten, da echte Aktuatoren typischerweise Ratebeschränkungen, Dynamikeffekte wie Anstiegszeit und Überschwingen aufweisen. Durch die Integration dieser Aspekte in das Regelungsmodell könnte der DRL-Regler besser auf die tatsächlichen Einschränkungen und Dynamiken der Aktuatoren reagieren, was zu einer präziseren und effizienteren Regelung führen würde. Darüber hinaus könnte die Begrenzung der Regelfrequenz auf ein realistisches Niveau, beispielsweise 10 Hz, die Stabilität und Leistung des Reglers weiter verbessern, indem unnötige schnelle Regelungen vermieden werden.

Welche Herausforderungen ergeben sich bei der Übertragung dieser Methodik auf komplexere nichtlineare Flugzeugmodelle mit hoher Unsicherheit?

Bei der Übertragung dieser Methodik auf komplexere nichtlineare Flugzeugmodelle mit hoher Unsicherheit ergeben sich mehrere Herausforderungen. Erstens könnten die nichtlinearen Dynamiken und die hohe Unsicherheit die Konvergenz des DRL-Reglers beeinträchtigen, da die Komplexität des Systems die Lernfähigkeit des Reglers erschweren könnte. Zweitens könnten die höheren Dimensionen des Flugzeugmodells die Trainingszeit und -ressourcen erhöhen, was zu längeren Trainingszeiten und höherem Rechenaufwand führen könnte. Darüber hinaus könnten die Unsicherheiten in den Flugzeugparametern die Robustheit des Reglers beeinträchtigen, da der Regler möglicherweise nicht in der Lage ist, angemessen auf unvorhergesehene Variationen zu reagieren. Die Integration von Unsicherheitsmodellen und robusten Reglungstechniken könnte erforderlich sein, um diesen Herausforderungen zu begegnen.

Wie könnte ein gekoppelter Ansatz, der die Belohnungsfunktion und die Steuerungspolitik gleichzeitig lernt, die Leistung des Systems im Vergleich zu dem hier verwendeten entkoppelten Ansatz verbessern?

Ein gekoppelter Ansatz, der die Belohnungsfunktion und die Steuerungspolitik gleichzeitig lernt, könnte die Leistung des Systems im Vergleich zu dem hier verwendeten entkoppelten Ansatz verbessern, indem er eine engere Verknüpfung zwischen der Belohnung und der Steuerungspolitik herstellt. Durch das gemeinsame Lernen beider Komponenten könnte das System besser verstehen, welche Aktionen zu positiven Belohnungen führen und somit die Effizienz des Lernprozesses verbessern. Darüber hinaus könnte ein gekoppelter Ansatz dazu beitragen, die Exploration des Zustandsraums zu optimieren, indem er die Belohnungsfunktion an die spezifischen Anforderungen der Steuerungspolitik anpasst. Dies könnte zu einer schnelleren Konvergenz und einer insgesamt verbesserten Leistung des Systems führen, da die Belohnungsfunktion und die Steuerungspolitik synergistisch zusammenarbeiten, um das gewünschte Verhalten zu erlernen.
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star