Die Studie stellt einen innovativen Ansatz namens Infinite-ID vor, der darauf abzielt, die Verflechtung zwischen Bild- und Textinformationen in der identitätserhaltenden Personalisierung zu lösen. Dazu werden drei Schlüsselkomponenten eingeführt:
Identity-enhanced Training: Dieser Ansatz extrahiert die Identitätsinformationen aus Referenzbildern und integriert sie separat in den Diffusionsmodell-Prozess, um die Identitätstreue zu verbessern und gleichzeitig die Störung durch Textinformationen zu minimieren.
Gemischter Aufmerksamkeitsmechanismus: Dieser Mechanismus kombiniert Identitäts- und Textinformationen effektiv, um sowohl die Identitätstreue als auch die semantische Konsistenz zu erhalten.
AdaIN-mean-Operation: Diese Operation hilft, den Stil der generierten Bilder präzise an die gewünschten Stilvorlagen anzupassen.
Die umfangreichen Experimente zeigen, dass Infinite-ID im Vergleich zu bestehenden Methoden eine hervorragende Leistung bei der Erhaltung der Identitätstreue und der semantischen Konsistenz sowohl bei der Rohfotogenerierung als auch bei der Stilbildgenerierung erzielt.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문