Die Autoren identifizieren, dass die Hauptursache für die mangelnde Ausrichtung zwischen Text und Bild in Diffusionsmodellen auf eine unzureichende Nutzung der Textbedingungen zurückzuführen ist. Um dieses Problem anzugehen, schlagen sie CoMat vor, eine neuartige Feinabstimmungsstrategie für Diffusionsmodelle, die einen Bildunterschriftsabgleichsmechanismus nutzt.
Zunächst generieren sie ein Bild basierend auf dem Textprompt. Dann verwenden sie ein vortrainiertes Bildunterschriftsmodell, um die Ausrichtung zwischen dem Bild und dem Textprompt zu bewerten und den Diffusionsmodell-Trainingsprozess entsprechend anzupassen. Dadurch wird das Diffusionsmodell dazu gebracht, die zuvor ignorierten Textkonzepte stärker zu berücksichtigen.
Darüber hinaus führen die Autoren eine Attributkonzentration ein, um die Bindung von Attributen an Entitäten zu verbessern. Schließlich fügen sie eine Treueerhaltungskomponente hinzu, um die ursprüngliche Leistungsfähigkeit des Diffusionsmodells zu bewahren.
Umfangreiche Experimente zeigen, dass CoMat-SDXL die Baseline-Modelle deutlich übertrifft und sogar den Stand der Technik in mehreren Aspekten übertrifft.
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Dongzhi Jian... às arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03653.pdfPerguntas Mais Profundas