Core Concepts
Eine Technik zur Anpassung der Reglerparameter eines Quadcopters in Echtzeit mithilfe von Reinforcement Learning, um die Trajektorien-Verfolgung zu verbessern.
Abstract
Die Studie präsentiert einen Ansatz zur Verwendung von Reinforcement Learning (RL), um die Reglerparameter eines Quadcopter-Controllers anzupassen. Insbesondere wurde Proximal Policy Optimization (PPO) eingesetzt, um eine Strategie zu trainieren, die die Verstärkungsfaktoren eines kaskadierten Rückführungsreglers während des Fluges anpasst. Das Hauptziel dieses Reglers ist es, den Verfolgungsfehler bei der Ausführung einer vorgegebenen Trajektorie zu minimieren.
Der Kern der Arbeit ist es, die Effektivität der adaptiven Gain-Strategie zu analysieren und mit der Leistung eines statischen Gain-Regelalgorithmus zu vergleichen. Dazu werden die Kenngrößen Integral Squared Error (ISE) und Integral Time Squared Error (ITSE) verwendet. Die Ergebnisse zeigen, dass das adaptive Gain-Schema eine Verbesserung der Trajektorien-Verfolgung von über 40% gegenüber dem statischen Gain-Regler erreicht.
Um Schäden an einem realen Quadcopter während der Trainingsphase zu vermeiden, wurde eine virtuelle Umgebung aufgebaut, die die Dynamik des Systems simuliert. Dabei wurde der Quadcopter auf zwei Dimensionen mit drei Freiheitsgraden beschränkt (Translation in x- und y-Richtung, Rotation in der x-y-Ebene).
Die Studie beginnt mit einem Überblick über verwandte Arbeiten zur Anwendung von RL-Algorithmen in der klassischen Regelungstechnik. Anschließend wird die virtuelle Umgebung sowie der PPO-Algorithmus erläutert. Abschließend werden die Ergebnisse präsentiert und Schlussfolgerungen sowie mögliche zukünftige Arbeiten diskutiert.
Stats
Die Drohnenparameter sind:
m = 2,5 kg
I = 1,0 kg·m³
l = 1,0 m
g = 9,807 m/s²
C_dv = 0,25
C_dω = 0,02255
Die Verstärkungsfaktor-Bereiche des Basisreglers sind:
K_px ∈ [0,5; 2,0]
K_pVx ∈ [-0,5; -0,1]
K_pθ ∈ [5,0; 10,0]
K_pω ∈ [10,0; 16,0]
K_py ∈ [0,5; 3,0]
K_pVy ∈ [5,0; 15,0]
Quotes
"Klar erkennbar ist ein Trend, bei dem die Anzahl der Abweichungen und Zeitüberschreitungen im Laufe des Trainings abnimmt, während die Anzahl der erfolgreichen Durchgänge zunimmt."
"Der RL-Regler erreicht eine Verbesserung der Trajektorien-Verfolgung von etwa 44% gegenüber dem manuell abgestimmten Basisregler."