Die Autoren präsentieren einen zweistufigen Ansatz, um die Effizienz des Lernens von Drehmoment-basierten Gehpolitiken für Roboter mit Beinen zu verbessern.
In der ersten Stufe trainieren sie eine positionsbasierte Politik, um Imitationsdaten zu gewinnen. Diese Daten werden dann in der zweiten Stufe verwendet, um "zerfallende Aktionspriors" einzuführen. Dabei werden die vom Drehmoment-basierten Politikmodell ausgewählten Aktionen mit einem PID-Regler auf die Imitationswinkel verstärkt. Dieser Bias wird im Laufe der Zeit abgebaut, so dass die Roboter am Ende in der Lage sind, ihre eigene Fortbewegung aufrechtzuerhalten, ohne diese "Stützen" zu benötigen.
Die Ergebnisse zeigen, dass dieser Ansatz das Lernen im Drehmomentbereich deutlich beschleunigt und konsistenter zu natürlichen Gehbewegungen konvergiert als reine Imitationslernen-Ansätze. Außerdem erweist sich die Drehmoment-basierte Politik als robuster gegenüber Störungen im Vergleich zu einer positionsbasierten Politik, selbst wenn beide nur auf ebenem Gelände ohne Störungen trainiert wurden.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Shivam Sood,... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2310.05714.pdfDeeper Inquiries