Belangrijkste concepten
MotionChain ist ein konversationelles Bewegungssteuerungssystem, das kontinuierliche und langfristige menschliche Bewegungen durch multimodale Eingabeaufforderungen generiert.
Samenvatting
MotionChain ist ein Rahmenwerk, das Vision, Bewegung und Sprache integriert. Es nutzt große Mengen an Sprach-, Bild-Sprache- und Bewegungs-Sprache-Daten, um Bewegungsaufgaben zu unterstützen.
MotionChain besteht aus einem multimodalen Tokenizer, der verschiedene Datentypen wie Text, Bild und Bewegung in diskrete Token umwandelt, sowie einem sprach-, bewegungs- und visionsorientierten Sprachmodell. Der Tokenizer umfasst einen Bewegungstokenizer, der menschliche Bewegungen in eine Sequenz von Bewegungstokens umwandelt, sowie einen Visionstokenizer, der Bilder und Videos in Sprachtoken-Einbettungen überführt.
Das sprach-, bewegungs- und visionsorientierten Sprachmodell nutzt diese integrierten Token, um Bewegungen basierend auf Textanweisungen, Bildern oder vorherigen Bewegungen zu generieren. Es kann auch Textbeschreibungen zu Bewegungen und Antworten auf Fragen zu Bewegungen erzeugen.
MotionChain wurde in einem mehrstufigen Trainingsprozess optimiert. Zunächst wurde der Bewegungstokenizer auf Bewegungsdaten trainiert. Dann wurde das Sprachmodell mit Aufgaben zum Übersetzen zwischen Bewegung, Bild und Text vortrainiert. Schließlich wurde es mit instruktionsbasierten Konversationsaufgaben feinabgestimmt.
Umfangreiche Experimente zeigen, dass MotionChain den Stand der Technik in Bewegungsaufgaben wie Bewegungsrückschluss und zeitlicher Bewegungszusammensetzung übertrifft. Es kann intuitive Steuerung und Interaktion mit virtuellen Menschen ermöglichen.
Statistieken
Die durchschnittliche Länge der generierten Antworten beträgt 22,17 Wörter.
Citaten
Keine relevanten Zitate gefunden.