Główne pojęcia
MMM ist ein neuartiges und einfaches Bewegungssynthese-Paradigma, das hochwertige und schnelle Bewegungsgenerierung ermöglicht, während es die Bearbeitbarkeit der Bewegungen beibehält.
Streszczenie
Das Generative Maskierte Bewegungsmodell (MMM) besteht aus zwei Hauptkomponenten:
- Ein Bewegungstokenisierer, der 3D-Menschenbewegungen in eine Sequenz diskreter Tokens im latenten Raum umwandelt.
- Ein bedingter maskierter Bewegungstransformer, der zufällig maskierte Bewegungstokens vorhersagt, basierend auf den vorberechneten Texttokens.
Durch das Aufmerksamkeit-Lernen auf Bewegungs- und Texttokens in alle Richtungen erfasst MMM explizit die inhärente Abhängigkeit zwischen Bewegungstokens und die semantische Zuordnung zwischen Bewegung und Text. Dies ermöglicht eine parallele und iterative Dekodierung mehrerer hochqualitativer Bewegungstokens, die stark mit den feingranularen Textbeschreibungen konsistent sind. Dadurch erreicht MMM gleichzeitig eine hohe Qualität und Geschwindigkeit der Bewegungsgenerierung.
Darüber hinaus besitzt MMM eine inhärente Bewegungsbearbeitbarkeit. Durch einfaches Platzieren von Maskentokens an den zu bearbeitenden Stellen füllt MMM die Lücken automatisch und garantiert nahtlose Übergänge zwischen bearbeiteten und nicht bearbeiteten Teilen.
Umfangreiche Experimente auf den Datensätzen HumanML3D und KIT-ML zeigen, dass MMM die derzeitigen Spitzenleistungen sowohl in Bewegungsqualität als auch -geschwindigkeit übertrifft. Darüber hinaus demonstriert MMM fortschrittliche Bearbeitungsfunktionen wie Bewegungsüberblendung, Oberkörpermodifikation und die Synthese langer Bewegungssequenzen.
Statystyki
Die Bewegungsgenerierung von MMM ist zwei Größenordnungen schneller auf einer einzelnen mittleren GPU als bearbeitbare Bewegungsdiffusionsmodelle.
MMM generiert eine 10,873-minütige Sequenz in nur 1,658 Sekunden.
Cytaty
"MMM ist ein neuartiges und einfaches Bewegungssynthese-Paradigma, das hochwertige und schnelle Bewegungsgenerierung ermöglicht, während es die Bearbeitbarkeit der Bewegungen beibehält."
"Durch das Aufmerksamkeit-Lernen auf Bewegungs- und Texttokens in alle Richtungen erfasst MMM explizit die inhärente Abhängigkeit zwischen Bewegungstokens und die semantische Zuordnung zwischen Bewegung und Text."
"Darüber hinaus besitzt MMM eine inhärente Bewegungsbearbeitbarkeit. Durch einfaches Platzieren von Maskentokens an den zu bearbeitenden Stellen füllt MMM die Lücken automatisch und garantiert nahtlose Übergänge zwischen bearbeiteten und nicht bearbeiteten Teilen."