Die Pixel-basierte Optimierung von Diffusionsmodellen (PXPO) ermöglicht es, Diffusionsmodelle durch Verstärkungslernung mit pixelweiser Rückmeldung zu optimieren, um sie besser an menschliche Präferenzen anzupassen.
Durch Modellierung des iterativen Inferenzprozesses von Konsistenzmodellen als Markov-Entscheidungsprozess und Anwendung von Verstärkungslernen können Konsistenzmodelle effizient an spezifische Zielbelohnungen angepasst werden, was zu einer schnelleren Generierung hochqualitativer Bilder führt.