Die Studie stellt einen innovativen Ansatz namens Infinite-ID vor, der darauf abzielt, die Verflechtung zwischen Bild- und Textinformationen in der identitätserhaltenden Personalisierung zu lösen. Dazu werden drei Schlüsselkomponenten eingeführt:
Identity-enhanced Training: Dieser Ansatz extrahiert die Identitätsinformationen aus Referenzbildern und integriert sie separat in den Diffusionsmodell-Prozess, um die Identitätstreue zu verbessern und gleichzeitig die Störung durch Textinformationen zu minimieren.
Gemischter Aufmerksamkeitsmechanismus: Dieser Mechanismus kombiniert Identitäts- und Textinformationen effektiv, um sowohl die Identitätstreue als auch die semantische Konsistenz zu erhalten.
AdaIN-mean-Operation: Diese Operation hilft, den Stil der generierten Bilder präzise an die gewünschten Stilvorlagen anzupassen.
Die umfangreichen Experimente zeigen, dass Infinite-ID im Vergleich zu bestehenden Methoden eine hervorragende Leistung bei der Erhaltung der Identitätstreue und der semantischen Konsistenz sowohl bei der Rohfotogenerierung als auch bei der Stilbildgenerierung erzielt.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問