Pixel-basierte Verstärkungslernung für Diffusionsmodelle: Verstärkungslernung aus reichhaltiger Rückmeldung
Die Pixel-basierte Optimierung von Diffusionsmodellen (PXPO) ermöglicht es, Diffusionsmodelle durch Verstärkungslernung mit pixelweiser Rückmeldung zu optimieren, um sie besser an menschliche Präferenzen anzupassen.