Die Studie präsentiert ein neuartiges End-to-End-Lernframework namens "Vid2Robot", das es Robotern ermöglicht, Aufgaben direkt aus Beobachtungsvideos von Menschen zu erlernen und auszuführen.
Das Kernkonzept ist, dass der Roboter die Absichten des Menschen aus dem Beobachtungsvideo erkennen und in seine eigenen ausführbaren Aktionen übersetzen kann, auch wenn der Mensch eine andere Verkörperung hat.
Dafür kombiniert das Modell eine Transformer-basierte Architektur mit mehreren Hilfsverlusten, die die Ausrichtung zwischen Beobachtungsvideo und Roboterausführung fördern.
Die Evaluierung auf Realrobotern zeigt, dass Vid2Robot im Vergleich zu anderen videobasierten Politiken eine um 20% höhere Erfolgsquote erreicht, wenn Menschenvideos als Eingabe verwendet werden. Darüber hinaus zeigt das Modell emergente Fähigkeiten wie den Transfer beobachteter Bewegungen auf andere Objekte und die Komposition von Langzeittrajektorien.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Vidhi Jain,M... at arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12943.pdfDeeper Inquiries