Core Concepts
λ-ECLIPSE ist eine effiziente Methode zur Erstellung personalisierter Text-zu-Bild-Generierung, die den CLIP-Latenzraum nutzt, ohne auf diffusionsbasierte Modelle angewiesen zu sein. Durch ein bildtext-interleaved Vortraining kann λ-ECLIPSE Konzept- und Kompositionsausrichtung bei deutlich geringerem Ressourcenverbrauch als bestehende Ansätze erreichen.
Abstract
Der Artikel stellt λ-ECLIPSE, eine neue Methode zur personalisierten Text-zu-Bild-Generierung (P-T2I), vor. Im Gegensatz zu bestehenden Ansätzen, die auf diffusionsbasierte Modelle oder große Multimodale Sprachmodelle (MLLM) setzen, nutzt λ-ECLIPSE den CLIP-Latenzraum, um eine ressourceneffiziente Lösung für Single- und Multi-Konzept-P-T2I zu bieten.
Kernpunkte:
- λ-ECLIPSE umgeht die Abhängigkeit von diffusionsbasierten Modellen während des Trainings, indem es stattdessen auf den CLIP-Latenzraum setzt. Dies führt zu deutlich geringerem Ressourcenverbrauch.
- Durch ein bildtext-interleaved Vortraining kann λ-ECLIPSE Konzept- und Kompositionsausrichtung in der generierten Bildausgabe erreichen.
- Experimente zeigen, dass λ-ECLIPSE mit nur 34 Millionen Parametern und 74 GPU-Stunden Training die Leistung von Methoden übertrifft, die 2 Milliarden bis 37 Milliarden Parameter benötigen.
- λ-ECLIPSE kann auch Kantensteuerung für die Bildgenerierung nutzen, ohne dabei die Konzeptausrichtung zu beeinträchtigen.
- Darüber hinaus ermöglicht der glatte CLIP-Latenzraum von λ-ECLIPSE nahtlose Übergänge zwischen generierten Bildern mit mehreren Konzepten.
Stats
λ-ECLIPSE benötigt nur 34 Millionen Parameter und 74 GPU-Stunden Training, im Vergleich zu 2 Milliarden bis 37 Milliarden Parametern und bis zu 12.300 GPU-Stunden bei anderen Methoden.
λ-ECLIPSE erreicht auf dem Dreambench-Datensatz einen DINO-Wert von 0,682, einen CLIP-I-Wert von 0,796 und einen CLIP-T-Wert von 0,304.
Auf dem ConceptBed-Datensatz erzielt λ-ECLIPSE einen Konzeptreplikations-CCD-Wert von 0,2853, einen Konzeptausrichtungs-CCD-Wert von 0,3619 und einen Kompositionsausrichtungs-CCD-Wert von -0,0200.
Quotes
"λ-ECLIPSE surpasses existing baselines in composition alignment while preserving concept alignment performance, even with significantly lower resource utilization."
"λ-ECLIPSE performs multi-subject driven P-T2I with just 34M parameters and is trained on a mere 74 GPU hours."