Der Artikel stellt ein neues Verfahren zur Erzeugung zeitlich konsistenter Menschenanimationen aus einem einzelnen Bild, einem Video oder einem Rauschen vor. Das Kernproblem besteht darin, dass bestehende generative Modelle, die zukünftige Frames in einer autoregressiven Weise dekodieren, unter Texturverschiebungen leiden, da eine erhebliche Bewegungs-Erscheinungs-Mehrdeutigkeit auftritt.
Um diese Mehrdeutigkeit zu unterdrücken, entwirft der Artikel ein bidirektionales zeitliches Diffusionsmodell (BTDM). Dabei lernt ein denoising-Netzwerk, Gaußsche Rauschen in beiden zeitlichen Richtungen iterativ zu entfernen, wobei die Zwischenergebnisse über aufeinanderfolgende Frames wechselseitig bedingt werden. Dieses bidirektionale zeitliche Modellieren unterdrückt die Bewegungs-Erscheinungs-Mehrdeutigkeit effektiv und führt zu zeitlich konsistenteren Animationen.
Die Experimente zeigen, dass das BTDM-Verfahren im Vergleich zu bestehenden unidirektionalen Methoden eine deutlich höhere zeitliche Kohärenz und visuelle Qualität bei der Erzeugung von Menschenanimationen aus einem einzelnen Bild oder einem personenspezifischen Video aufweist. Darüber hinaus kann das Modell auch ohne Eingabebilder oder -videos vielfältige Menschenanimationen erzeugen.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Tserendorj A... ב- arxiv.org 03-20-2024
https://arxiv.org/pdf/2307.00574.pdfשאלות מעמיקות