DragAnything ist ein neuer Ansatz zur Bewegungssteuerung in generierten Videos, der die Beschränkungen bisheriger Methoden überwindet. Bisherige Ansätze wie DragNUWA und MotionCtrl steuerten die Bewegung direkt über Pixel oder Pixelbereiche, was zu Ungenauigkeiten führen kann, da ein einzelner Pixel nicht das gesamte Objekt repräsentiert.
DragAnything verwendet stattdessen eine semantische Repräsentation der Objekte, die aus den Latenzmerkmalen eines Diffusionsmodells extrahiert wird. Damit kann die Bewegung präzise auf Objektebene gesteuert werden. Zusätzlich wird eine 2D-Gaußsche Repräsentation verwendet, um den Fokus auf den Objektmittelpunkt zu verstärken.
Die Experimente zeigen, dass DragAnything den aktuellen Stand der Technik in Bezug auf Videoqualiät (FID, FVD) und Bewegungssteuerung (ObjMC) übertrifft. In Nutzerstudien wurde DragAnything um 26% besser bewertet als die vorherige Methode DragNUWA.
DragAnything unterstützt vielfältige Formen der Bewegungssteuerung, einschließlich Vorder- und Hintergrund sowie simultaner Kontrolle mehrerer Objekte. Einige Einschränkungen bestehen noch bei sehr großen Bewegungen.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Wejia Wu,Zhu... kl. arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07420.pdfDybere Forespørgsler