Die Studie untersucht die Bedeutung logischer Informationen für die Bildgenerierung. Die Autoren stellen fest, dass logische Informationen eine wichtige Rolle beim Verständnis und der Verarbeitung von Bildern spielen, aber von fast allen Modellen vernachlässigt werden, was zu schlechter Leistung führt.
Um dies zu verbessern, präsentieren die Autoren LogicalDefender, eine Methode, die Bilder mit bereits vom Menschen zusammengefassten logischen Kenntnissen in Textform kombiniert. Dabei werden textuelle Beschreibungen verwendet, um eine logische Einbettung zu definieren, die semantische Informationen aus menschlichem Wissen enthält. Um Mehrdeutigkeiten bei der Verwendung dieser Einbettung als Anweisung für Diffusionsmodelle zu vermeiden, werden mehrere Bilder ausgewählt, die logischen Gesetzen folgen, und der Prompt-Feinabstimmungsprozess wird verwendet, um die logische Einbettung zu verstärken.
Darüber hinaus wird ein negativer Leitweg entworfen, um die Störung durch nicht verwandte Merkmale zu beseitigen und das Modell auf das Verständnis logischer Informationen zu konzentrieren.
Die Experimente zeigen, dass LogicalDefender die Leistung des Modells bei der logischen Bildgenerierung deutlich verbessern kann, ohne den Aufwand stark zu erhöhen. Darüber hinaus kann die erlernte logische Einbettung verwendet werden, um die logische Generierungsfähigkeit des Modells während der Inferenz zu verbessern.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések