Der Artikel beschreibt einen neuen Ansatz namens Kontinuierliches Domain-Randomisierung (CDR), der Domain-Randomisierung mit kontinuierlichem Lernen kombiniert, um den Sim2Real-Transfer in der Robotik zu verbessern.
Herkömmliche Domain-Randomisierung-Ansätze erfordern von Beginn an einen Simulator mit einer festen Menge an einstellbaren Parametern, aus denen die Parameter gleichzeitig randomisiert werden, um ein robustes Modell für den Einsatz in der realen Welt zu trainieren. Allerdings erhöht die kombinierte Randomisierung vieler Parameter die Aufgabenschwierigkeit und kann zu suboptimalen Strategien führen.
CDR bietet eine flexiblere Trainingsmethode, indem es die Domain-Randomisierung mit kontinuierlichem Lernen kombiniert. Das Modell wird zunächst in einer nicht-randomisierten Simulation trainiert, wo die Aufgabe leichter zu lösen ist. Anschließend wird das Modell sequenziell auf einer Reihe von Randomisierungen trainiert, wobei kontinuierliches Lernen eingesetzt wird, um die Auswirkungen vorheriger Randomisierungen zu erinnern.
Die Experimente mit Roboter-Greif- und Erreichaufgaben zeigen, dass das auf diese Weise trainierte Modell effektiv in der Simulation lernt und robust auf dem realen Roboter arbeitet, wobei es mit Basislinien, die eine kombinierte Randomisierung oder sequenzielle Randomisierung ohne kontinuierliches Lernen verwenden, Schritt hält oder diese sogar übertrifft.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Josi... alle arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12193.pdfDomande più approfondite