Core Concepts
Unser Modell ECHO lernt, wie Menschen sich in sozialen Szenarien verhalten, um natürliche und sinnvolle Roboterbewegungen zu erzeugen, die mit Menschen interagieren.
Abstract
Das ECHO-Modell besteht aus zwei Hauptkomponenten:
Aufbau eines gemeinsamen Darstellungsraums zwischen Menschen und Robotern, der die Semantik der Posen erhält und das Retargeting von Bewegungen erleichtert.
Entwicklung einer Transformer-basierten Architektur, die zunächst individuelle Menschenbewegungen vorhersagt und diese dann basierend auf dem sozialen Kontext verfeinert. Dadurch können natürliche und sinnvolle Roboterbewegungen in sozialen Szenarien erzeugt werden.
Das Modell übertrifft den Stand der Technik deutlich bei der Vorhersage sozialer Menschenbewegungen und der Erzeugung von Mensch-Roboter-Interaktionen. Es lernt, wie Menschen sich in sozialen Situationen verhalten, und nutzt dies, um Roboterbewegungen zu synthetisieren, die mit Menschen interagieren.
Stats
Die Vorhersagefehler (JPE) für die Gesamtposition betragen bei 0,2 Sekunden 15,57 mm, bei 0,5 Sekunden 34,37 mm, bei 1,0 Sekunden 52,11 mm und bei 1,5 Sekunden 70,15 mm.
Der Fehler für die ausgerichtete Position (AJPE) beträgt bei 0,2 Sekunden 20,22 mm, bei 0,5 Sekunden 45,01 mm, bei 1,0 Sekunden 73,68 mm und bei 1,5 Sekunden 110,04 mm.
Der Fehler für die Endposition (FDE) beträgt bei 0,2 Sekunden 11,37 mm, bei 0,5 Sekunden 25,37 mm, bei 1,0 Sekunden 48,85 mm und bei 1,5 Sekunden 80,81 mm.
Quotes
"Unser ECHO-Modell lernt, wie Menschen sich in sozialen Szenarien verhalten, um natürliche und sinnvolle Roboterbewegungen zu erzeugen, die mit Menschen interagieren."
"Wir bauen einen gemeinsamen Darstellungsraum zwischen Menschen und Robotern auf, der die Semantik der Posen erhält und das Retargeting von Bewegungen erleichtert."
"Wir entwickeln eine Transformer-basierte Architektur, die zunächst individuelle Menschenbewegungen vorhersagt und diese dann basierend auf dem sozialen Kontext verfeinert."