Der Artikel beschreibt einen neuen Ansatz namens Kontinuierliches Domain-Randomisierung (CDR), der Domain-Randomisierung mit kontinuierlichem Lernen kombiniert, um den Sim2Real-Transfer in der Robotik zu verbessern.
Herkömmliche Domain-Randomisierung-Ansätze erfordern von Beginn an einen Simulator mit einer festen Menge an einstellbaren Parametern, aus denen die Parameter gleichzeitig randomisiert werden, um ein robustes Modell für den Einsatz in der realen Welt zu trainieren. Allerdings erhöht die kombinierte Randomisierung vieler Parameter die Aufgabenschwierigkeit und kann zu suboptimalen Strategien führen.
CDR bietet eine flexiblere Trainingsmethode, indem es die Domain-Randomisierung mit kontinuierlichem Lernen kombiniert. Das Modell wird zunächst in einer nicht-randomisierten Simulation trainiert, wo die Aufgabe leichter zu lösen ist. Anschließend wird das Modell sequenziell auf einer Reihe von Randomisierungen trainiert, wobei kontinuierliches Lernen eingesetzt wird, um die Auswirkungen vorheriger Randomisierungen zu erinnern.
Die Experimente mit Roboter-Greif- und Erreichaufgaben zeigen, dass das auf diese Weise trainierte Modell effektiv in der Simulation lernt und robust auf dem realen Roboter arbeitet, wobei es mit Basislinien, die eine kombinierte Randomisierung oder sequenzielle Randomisierung ohne kontinuierliches Lernen verwenden, Schritt hält oder diese sogar übertrifft.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor