In dieser Arbeit stellen wir eine neuartige Deep-Learning-Methode zur menschlichen-zu-Roboter-Bewegungsübertragung vor, die es Robotern ermöglicht, menschliche Posen genau nachzuahmen. Im Gegensatz zu bisherigen Deep-Learning-basierten Arbeiten erfordert unser Verfahren keine gepaarten menschlichen und robotischen Bewegungsdaten, was die Übertragung auf neue Roboter erleichtert.
Zunächst konstruieren wir einen gemeinsamen Latenzraum zwischen Menschen und Robotern über eine adaptive kontrastive Lernmethode, die einen vorgeschlagenen domänenübergreifenden Ähnlichkeitsmetrik nutzt. Zusätzlich führen wir einen Konsistenzterm ein, um einen gemeinsamen Latenzraum zu erstellen, der die Ähnlichkeit der Posen mit Präzision erfasst und gleichzeitig eine direkte Robotersteuerung aus dem Latenzraum ermöglicht.
Wir führen eine umfassende Bewertung der Robotersteuerung aus verschiedenen Modalitäten (d.h. Texte, RGB-Videos und Schlüsselposen) durch, was eine benutzerfreundliche Robotersteuerung, insbesondere für Nicht-Experten, ermöglicht. Unser Modell übertrifft bestehende Arbeiten in Bezug auf die menschlich-robotische Übertragung in Bezug auf Effizienz und Präzision. Schließlich haben wir unsere Methode in einem Realroboter mit Selbstkollisionsvermeidung durch einen Ganzkörper-Regler implementiert, um die Effektivität unseres Ansatzes zu demonstrieren.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Yashuai Yan,... a las arxiv.org 04-09-2024
https://arxiv.org/pdf/2309.05310.pdfConsultas más profundas