Die Studie untersucht, wie Physikattribute (Farbe, Reibungskoeffizient, Form) und Hintergrundszenenmerkmale (Komplexität, Dynamik) die Leistung von Video-Transformatoren in der Vorhersage von Schiebetrajektorien beeinflussen.
Dafür wurde der CloudGripper-Push-1K-Datensatz mit 1,4 TB, 1.278 Stunden und 460.000 Trajektorien von Roboter-Schiebe-Interaktionen erstellt. Der Datensatz umfasst verschiedene Zielobjekte (Ball, Würfel, Schaum, Ikosaeder) mit unterschiedlichen Physikattributen und Hintergrundszenarien mit variierender Komplexität.
Drei Video-Transformer-Varianten (VOT-MaxViT, VOT-MaxViT-2, VOT-Swin-T) wurden auf den Datensatz trainiert und evaluiert. Die Ergebnisse zeigen, dass die Leistung der Modelle mit zunehmender Hintergrundkomplexität abnimmt. Außerdem sind die Modelle besonders empfindlich gegenüber Farbverschiebungen der Zielobjekte. Formen und Reibungskoeffizienten haben ebenfalls einen Einfluss, wenn auch in geringerem Maße. Beim Feintuning der Modelle wurde beobachtet, dass die erforderliche Datenmenge stark vom verwendeten Architekturdesign abhängt.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések