Das Generative Maskierte Bewegungsmodell (MMM) besteht aus zwei Hauptkomponenten:
Durch das Aufmerksamkeit-Lernen auf Bewegungs- und Texttokens in alle Richtungen erfasst MMM explizit die inhärente Abhängigkeit zwischen Bewegungstokens und die semantische Zuordnung zwischen Bewegung und Text. Dies ermöglicht eine parallele und iterative Dekodierung mehrerer hochqualitativer Bewegungstokens, die stark mit den feingranularen Textbeschreibungen konsistent sind. Dadurch erreicht MMM gleichzeitig eine hohe Qualität und Geschwindigkeit der Bewegungsgenerierung.
Darüber hinaus besitzt MMM eine inhärente Bewegungsbearbeitbarkeit. Durch einfaches Platzieren von Maskentokens an den zu bearbeitenden Stellen füllt MMM die Lücken automatisch und garantiert nahtlose Übergänge zwischen bearbeiteten und nicht bearbeiteten Teilen.
Umfangreiche Experimente auf den Datensätzen HumanML3D und KIT-ML zeigen, dass MMM die derzeitigen Spitzenleistungen sowohl in Bewegungsqualität als auch -geschwindigkeit übertrifft. Darüber hinaus demonstriert MMM fortschrittliche Bearbeitungsfunktionen wie Bewegungsüberblendung, Oberkörpermodifikation und die Synthese langer Bewegungssequenzen.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Ekkasit Piny... um arxiv.org 03-29-2024
https://arxiv.org/pdf/2312.03596.pdfTiefere Fragen