Core Concepts
Ein selbstverbessernder Online-Trainingsrahmen, der digitale Zwillinge und Reinforcement Learning kombiniert, um Roboter in die Lage zu versetzen, sich an unvorhersehbare Umgebungen anzupassen und kollisionsfreie Trajektorien in Echtzeit zu generieren.
Abstract
Der Artikel präsentiert einen selbstverbessernden Hardware-in-the-Loop-Trainingsrahmen, der digitale Zwillinge mit Reinforcement Learning (RL) integriert. Im Gegensatz zu bestehenden Forschungsarbeiten, die digitale Zwillinge zur Erzeugung synthetischer Daten für das Training von Deep-Learning-Modellen einsetzen, trainiert dieser Rahmen RL-Agenten direkt in der digitalen Zwillingsumgebung, die sich basierend auf Echtzeitinteraktionen kontinuierlich aktualisiert.
In einem Fallstudie zur Hindernisumfahrung wird ein digitaler Zwilling für den Ufactory Xarm5-Roboter auf Basis von Pybullet und Robot Operating System (ROS) entwickelt. Der RL-Agent aktualisiert seine Strategie kontinuierlich, wenn Kollisionen oder erfolglose Aufgabenversuche vom Überwachungssystem des digitalen Zwillings erkannt werden. Sobald der RL-Agent die Aufgabe sicher und erfolgreich abschließen kann, werden die Gelenkwinkelkommandos an den physischen Roboter gesendet.
Die Ergebnisse zeigen, dass der Roboter in der Lage ist, sich an eine anspruchsvollere Aufgabe als zuvor anzupassen, indem er seine Strategie selbstständig verbessert. Dieser Ansatz eliminiert die Notwendigkeit einer wiederholten Umprogrammierung des Roboters, wenn sich die Umgebung ändert, und erhöht somit die Anpassungsfähigkeit des Roboters.
Stats
Die Belohnung des vortrainierten Modells erreicht nach etwa 9,7 × 105 Schritten den optimalen Wert.
Nach etwa 1,2 × 104 Schritten beginnt die Belohnung des neu trainierten Modells wieder zu steigen und konvergiert nach etwa 1 × 105 Schritten.
Quotes
"Statt digitale Zwillinge nur zur Erzeugung synthetischer Daten für das Vortraining des RL-Agenten vor der Aufgabenausführung zu verwenden, schlagen wir einen selbstverbessernden Online-Trainingsrahmen vor, der während der Aufgabe durchgeführt wird."
"Im Gegensatz zu bestehenden Robotersimulationssoftware ist Pybullet laut [11] die am besten geeignete Software für Forschung im Bereich des maschinellen Lernens in Bezug auf Ressourcenverbrauch und Leerlaufzeit."