In dieser Arbeit stellen wir eine neuartige Deep-Learning-Methode zur menschlichen-zu-Roboter-Bewegungsübertragung vor, die es Robotern ermöglicht, menschliche Posen genau nachzuahmen. Im Gegensatz zu bisherigen Deep-Learning-basierten Arbeiten erfordert unser Verfahren keine gepaarten menschlichen und robotischen Bewegungsdaten, was die Übertragung auf neue Roboter erleichtert.
Zunächst konstruieren wir einen gemeinsamen Latenzraum zwischen Menschen und Robotern über eine adaptive kontrastive Lernmethode, die einen vorgeschlagenen domänenübergreifenden Ähnlichkeitsmetrik nutzt. Zusätzlich führen wir einen Konsistenzterm ein, um einen gemeinsamen Latenzraum zu erstellen, der die Ähnlichkeit der Posen mit Präzision erfasst und gleichzeitig eine direkte Robotersteuerung aus dem Latenzraum ermöglicht.
Wir führen eine umfassende Bewertung der Robotersteuerung aus verschiedenen Modalitäten (d.h. Texte, RGB-Videos und Schlüsselposen) durch, was eine benutzerfreundliche Robotersteuerung, insbesondere für Nicht-Experten, ermöglicht. Unser Modell übertrifft bestehende Arbeiten in Bezug auf die menschlich-robotische Übertragung in Bezug auf Effizienz und Präzision. Schließlich haben wir unsere Methode in einem Realroboter mit Selbstkollisionsvermeidung durch einen Ganzkörper-Regler implementiert, um die Effektivität unseres Ansatzes zu demonstrieren.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Yashuai Yan,... في arxiv.org 04-09-2024
https://arxiv.org/pdf/2309.05310.pdfاستفسارات أعمق