Der Artikel stellt ein neues Verfahren zur Erzeugung zeitlich konsistenter Menschenanimationen aus einem einzelnen Bild, einem Video oder einem Rauschen vor. Das Kernproblem besteht darin, dass bestehende generative Modelle, die zukünftige Frames in einer autoregressiven Weise dekodieren, unter Texturverschiebungen leiden, da eine erhebliche Bewegungs-Erscheinungs-Mehrdeutigkeit auftritt.
Um diese Mehrdeutigkeit zu unterdrücken, entwirft der Artikel ein bidirektionales zeitliches Diffusionsmodell (BTDM). Dabei lernt ein denoising-Netzwerk, Gaußsche Rauschen in beiden zeitlichen Richtungen iterativ zu entfernen, wobei die Zwischenergebnisse über aufeinanderfolgende Frames wechselseitig bedingt werden. Dieses bidirektionale zeitliche Modellieren unterdrückt die Bewegungs-Erscheinungs-Mehrdeutigkeit effektiv und führt zu zeitlich konsistenteren Animationen.
Die Experimente zeigen, dass das BTDM-Verfahren im Vergleich zu bestehenden unidirektionalen Methoden eine deutlich höhere zeitliche Kohärenz und visuelle Qualität bei der Erzeugung von Menschenanimationen aus einem einzelnen Bild oder einem personenspezifischen Video aufweist. Darüber hinaus kann das Modell auch ohne Eingabebilder oder -videos vielfältige Menschenanimationen erzeugen.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Tserendorj A... a las arxiv.org 03-20-2024
https://arxiv.org/pdf/2307.00574.pdfConsultas más profundas