Unser Ansatz Contrastive Adapter Training (CAT) ermöglicht die Beibehaltung des Basiswissens des Modells bei der Anpassung an personalisierte Bildgenerierung.
FlashFace ist ein praktisches Tool, mit dem Nutzer ihre eigenen Fotos schnell personalisieren können, indem sie ein oder mehrere Referenzfotografien und einen Texthinweis bereitstellen. Unser Ansatz zeichnet sich durch eine höhere Treue der Identitätserhaltung und eine bessere Befolgung der Anweisungen aus, was auf zwei subtile Designs zurückzuführen ist: Zum einen codieren wir die Gesichtsidentität in einer Reihe von Merkmalskarten anstelle eines einzigen Bildtokens wie in früheren Arbeiten, was dem Modell ermöglicht, mehr Details der Referenzgesichter (z.B. Narben, Tattoos und Gesichtsform) beizubehalten. Zum anderen führen wir eine entkoppelte Integrationsstrategie ein, um die Text- und Bildanleitung während des Text-zu-Bild-Generierungsprozesses auszugleichen, was den Konflikt zwischen den Referenzgesichtern und den Textaufforderungen abmildert (z.B. Personalisierung eines Erwachsenen zu einem "Kind" oder einem "Älteren").
Das vorgeschlagene MM-Diff-Verfahren ermöglicht eine schnelle und hochwertige Generierung personalisierter Bilder, sowohl für einzelne als auch für mehrere Subjekte, durch die effiziente Integration von detailreichen Subjekteinbettungen und textaugmentierten Bildeinbettungen in das Diffusionsmodell.
IDAdapter ist ein Ansatz, der die Vielfalt und Identitätserhaltung bei der personalisierten Bildgenerierung aus einem einzigen Foto verbessert, ohne dass eine Feinabstimmung während der Inferenz erforderlich ist.