Das Papier stellt das Effiziente Bewegungsdiffusionsmodell (EMDM) vor, das darauf abzielt, schnelle und hochwertige menschliche Bewegungen zu erzeugen.
Bestehende Diffusionsmodelle für die Bewegungserzeugung haben Schwierigkeiten, eine schnelle Erzeugung ohne Qualitätseinbußen zu erreichen. Einerseits erfordern Ansätze wie Motion Latent Diffusion einen nicht-trivialen Aufwand, um einen geeigneten Latenzraum zu erlernen. Andererseits führt eine naive Beschleunigung durch Erhöhung der Abtastschrittgröße oft zu Qualitätsverlusten, da die komplexe Denoising-Verteilung nicht mehr korrekt approximiert wird.
EMDM adressiert diese Probleme, indem es eine bedingte Denoising-Diffusions-GAN verwendet, um die komplexen Denoising-Verteilungen für eine effizientere Bewegungserzeugung mit wenigen Abtastschritten zu erfassen. Zusätzlich werden geometrische Verluste verwendet, um Bewegungsartefakte zu minimieren.
Das Ergebnis ist ein Modell, das eine Echtzeit-Bewegungserzeugung ermöglicht und die Effizienz von Diffusionsmodellen für die Bewegungserzeugung deutlich verbessert, ohne Abstriche bei der Qualität und Vielfalt der erzeugten Bewegungen machen zu müssen.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Wenyang Zhou... lúc arxiv.org 03-18-2024
https://arxiv.org/pdf/2312.02256.pdfYêu cầu sâu hơn