Das Papier stellt das Effiziente Bewegungsdiffusionsmodell (EMDM) vor, das darauf abzielt, schnelle und hochwertige menschliche Bewegungen zu erzeugen.
Bestehende Diffusionsmodelle für die Bewegungserzeugung haben Schwierigkeiten, eine schnelle Erzeugung ohne Qualitätseinbußen zu erreichen. Einerseits erfordern Ansätze wie Motion Latent Diffusion einen nicht-trivialen Aufwand, um einen geeigneten Latenzraum zu erlernen. Andererseits führt eine naive Beschleunigung durch Erhöhung der Abtastschrittgröße oft zu Qualitätsverlusten, da die komplexe Denoising-Verteilung nicht mehr korrekt approximiert wird.
EMDM adressiert diese Probleme, indem es eine bedingte Denoising-Diffusions-GAN verwendet, um die komplexen Denoising-Verteilungen für eine effizientere Bewegungserzeugung mit wenigen Abtastschritten zu erfassen. Zusätzlich werden geometrische Verluste verwendet, um Bewegungsartefakte zu minimieren.
Das Ergebnis ist ein Modell, das eine Echtzeit-Bewegungserzeugung ermöglicht und die Effizienz von Diffusionsmodellen für die Bewegungserzeugung deutlich verbessert, ohne Abstriche bei der Qualität und Vielfalt der erzeugten Bewegungen machen zu müssen.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Wenyang Zhou... om arxiv.org 03-18-2024
https://arxiv.org/pdf/2312.02256.pdfDiepere vragen