Die Arbeit präsentiert Readout Guidance, eine Methode zur Steuerung von Textdiffusionsmodellen mithilfe erlernter Signale. Readout Guidance verwendet Readout-Köpfe, die als leichtgewichtige Netzwerke trainiert werden, um relevante Signale aus den Zwischenschichten eines vortrainierten, eingefrorenen Diffusionsmodells zu extrahieren. Diese Readouts können Eigenschaften wie Pose, Tiefe und Kanten einzelner Bilder oder höherwertige Eigenschaften wie Korrespondenz und Ähnlichkeit zwischen Bildern erfassen.
Durch den Vergleich der Readout-Schätzungen mit benutzerdefinierten Zielen und das Backpropagieren des Gradienten durch den Readout-Kopf können diese Schätzungen verwendet werden, um den Sampling-Prozess zu steuern. Im Vergleich zu früheren Methoden für bedingte Generierung erfordert Readout Guidance deutlich weniger zusätzliche Parameter und Trainingsdaten und bietet ein einfaches und flexibles Rezept, um verschiedene Formen der bedingten Kontrolle unter einem einheitlichen Framework zu reproduzieren.
Die Arbeit zeigt die Anwendung von Readout Guidance in verschiedenen Szenarien, darunter Drag-basierte Manipulation, identitätskonsistente Generierung und räumlich ausgerichtete Kontrolle. Dabei übertrifft Readout Guidance bestehende Methoden in Bezug auf Dateneffizienz und Flexibilität.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문