Optimierung von Diffusionsmodellen durch Maximierung des menschlichen Nutzens
Diffusion-KTO ist ein neuartiger Ansatz, um Text-zu-Bild-Diffusionsmodelle durch Maximierung des erwarteten menschlichen Nutzens auszurichten. Diffusion-KTO erfordert nur einfache binäre Feedback-Signale pro Bild und vermeidet die Notwendigkeit, aufwendige paarweise Präferenzdaten zu sammeln oder ein komplexes Belohnungsmodell zu trainieren.