Die Studie stellt einen innovativen Ansatz namens Infinite-ID vor, der darauf abzielt, die Verflechtung zwischen Bild- und Textinformationen in der identitätserhaltenden Personalisierung zu lösen. Dazu werden drei Schlüsselkomponenten eingeführt:
Identity-enhanced Training: Dieser Ansatz extrahiert die Identitätsinformationen aus Referenzbildern und integriert sie separat in den Diffusionsmodell-Prozess, um die Identitätstreue zu verbessern und gleichzeitig die Störung durch Textinformationen zu minimieren.
Gemischter Aufmerksamkeitsmechanismus: Dieser Mechanismus kombiniert Identitäts- und Textinformationen effektiv, um sowohl die Identitätstreue als auch die semantische Konsistenz zu erhalten.
AdaIN-mean-Operation: Diese Operation hilft, den Stil der generierten Bilder präzise an die gewünschten Stilvorlagen anzupassen.
Die umfangreichen Experimente zeigen, dass Infinite-ID im Vergleich zu bestehenden Methoden eine hervorragende Leistung bei der Erhaltung der Identitätstreue und der semantischen Konsistenz sowohl bei der Rohfotogenerierung als auch bei der Stilbildgenerierung erzielt.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Yi Wu,Ziqian... a las arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11781.pdfConsultas más profundas