toplogo
Увійти

Generatives Maskiertes Bewegungsmodell (MMM): Hochwertige und schnelle Texteingabe-basierte Bewegungssynthese mit inhärenter Bearbeitbarkeit


Основні поняття
MMM ist ein neuartiges und einfaches Bewegungssynthese-Paradigma, das hochwertige und schnelle Bewegungsgenerierung ermöglicht, während es die Bearbeitbarkeit der Bewegungen beibehält.
Анотація

Das Generative Maskierte Bewegungsmodell (MMM) besteht aus zwei Hauptkomponenten:

  1. Ein Bewegungstokenisierer, der 3D-Menschenbewegungen in eine Sequenz diskreter Tokens im latenten Raum umwandelt.
  2. Ein bedingter maskierter Bewegungstransformer, der zufällig maskierte Bewegungstokens vorhersagt, basierend auf den vorberechneten Texttokens.

Durch das Aufmerksamkeit-Lernen auf Bewegungs- und Texttokens in alle Richtungen erfasst MMM explizit die inhärente Abhängigkeit zwischen Bewegungstokens und die semantische Zuordnung zwischen Bewegung und Text. Dies ermöglicht eine parallele und iterative Dekodierung mehrerer hochqualitativer Bewegungstokens, die stark mit den feingranularen Textbeschreibungen konsistent sind. Dadurch erreicht MMM gleichzeitig eine hohe Qualität und Geschwindigkeit der Bewegungsgenerierung.

Darüber hinaus besitzt MMM eine inhärente Bewegungsbearbeitbarkeit. Durch einfaches Platzieren von Maskentokens an den zu bearbeitenden Stellen füllt MMM die Lücken automatisch und garantiert nahtlose Übergänge zwischen bearbeiteten und nicht bearbeiteten Teilen.

Umfangreiche Experimente auf den Datensätzen HumanML3D und KIT-ML zeigen, dass MMM die derzeitigen Spitzenleistungen sowohl in Bewegungsqualität als auch -geschwindigkeit übertrifft. Darüber hinaus demonstriert MMM fortschrittliche Bearbeitungsfunktionen wie Bewegungsüberblendung, Oberkörpermodifikation und die Synthese langer Bewegungssequenzen.

edit_icon

Customize Summary

edit_icon

Rewrite with AI

edit_icon

Generate Citations

translate_icon

Translate Source

visual_icon

Generate MindMap

visit_icon

Visit Source

Статистика
Die Bewegungsgenerierung von MMM ist zwei Größenordnungen schneller auf einer einzelnen mittleren GPU als bearbeitbare Bewegungsdiffusionsmodelle. MMM generiert eine 10,873-minütige Sequenz in nur 1,658 Sekunden.
Цитати
"MMM ist ein neuartiges und einfaches Bewegungssynthese-Paradigma, das hochwertige und schnelle Bewegungsgenerierung ermöglicht, während es die Bearbeitbarkeit der Bewegungen beibehält." "Durch das Aufmerksamkeit-Lernen auf Bewegungs- und Texttokens in alle Richtungen erfasst MMM explizit die inhärente Abhängigkeit zwischen Bewegungstokens und die semantische Zuordnung zwischen Bewegung und Text." "Darüber hinaus besitzt MMM eine inhärente Bewegungsbearbeitbarkeit. Durch einfaches Platzieren von Maskentokens an den zu bearbeitenden Stellen füllt MMM die Lücken automatisch und garantiert nahtlose Übergänge zwischen bearbeiteten und nicht bearbeiteten Teilen."

Ключові висновки, отримані з

by Ekkasit Piny... о arxiv.org 03-29-2024

https://arxiv.org/pdf/2312.03596.pdf
MMM

Глибші Запити

Wie könnte MMM für die Generierung von Bewegungen mehrerer Personen erweitert werden?

Um MMM für die Generierung von Bewegungen mehrerer Personen zu erweitern, könnten verschiedene Ansätze verfolgt werden. Zunächst könnte das Modell dahingehend angepasst werden, dass es in der Lage ist, die Interaktionen und Beziehungen zwischen den verschiedenen Personen in der Szene zu berücksichtigen. Dies könnte durch die Integration von spezifischen Textbeschreibungen erfolgen, die die Positionen, Bewegungen und Interaktionen der einzelnen Personen detailliert beschreiben. Darüber hinaus könnte das Modell durch die Einführung von zusätzlichen Token oder Merkmalen, die die Identität und Position jeder Person in der Szene repräsentieren, erweitert werden. Dies würde es MMM ermöglichen, realistische und kohärente Bewegungen für jede Person in der Szene zu generieren.

Welche zusätzlichen Modifikationen wären nötig, um MMM für die Generierung von Bewegungen in Interaktion mit Objekten zu befähigen?

Um MMM für die Generierung von Bewegungen in Interaktion mit Objekten zu befähigen, müssten spezifische Modifikationen am Modell vorgenommen werden. Zunächst wäre es erforderlich, das Modell mit einem Verständnis für die Physik und Dynamik von Objektinteraktionen zu erweitern. Dies könnte durch die Integration von spezifischen Textbeschreibungen erfolgen, die die Art der Interaktion, die beteiligten Objekte und die resultierenden Bewegungen detailliert beschreiben. Darüber hinaus könnten zusätzliche Token oder Merkmale eingeführt werden, um die Eigenschaften und Positionen der beteiligten Objekte zu repräsentieren. Durch die Berücksichtigung dieser Informationen könnte MMM realistische Bewegungen generieren, die die Interaktionen zwischen Personen und Objekten widerspiegeln.

Inwiefern könnte MMM von der Integration von Bewegungsdaten aus der realen Welt profitieren, um die Realismus und Vielfalt der generierten Bewegungen weiter zu steigern?

Die Integration von Bewegungsdaten aus der realen Welt könnte MMM erheblich dabei unterstützen, den Realismus und die Vielfalt der generierten Bewegungen weiter zu steigern. Durch die Verwendung von Echtzeit-Bewegungsdaten aus verschiedenen Quellen wie Motion-Capture-Systemen oder Videos könnten reale Bewegungsmuster und -dynamiken in das Modell einfließen. Dies würde es MMM ermöglichen, Bewegungen zu generieren, die auf authentischen menschlichen Bewegungen basieren und somit realistischer wirken. Darüber hinaus könnten durch die Integration von Bewegungsdaten aus der realen Welt auch die Vielfalt und Variation der generierten Bewegungen erhöht werden, da das Modell auf eine breite Palette von Bewegungsstilen und -mustern zugreifen könnte. Dies würde zu einer insgesamt verbesserten Qualität und Natürlichkeit der generierten Bewegungen führen.
0
star