Durch die Verwendung von zwei kontrastierenden Eingabeaufforderungen (p+ und p-) kann RLCD die Differenz zwischen den Modellausgaben (o+ und o-) verstärken, was zu saubereren Präferenzlabels ohne menschliche Annotationen führt. Das Präferenzmodell wird dann verwendet, um ein unausgerichtetes Basissprachmodell über Verstärkungslernen zu verbessern.
Das Hauptziel ist es, Inhalte effizient zu verarbeiten und zu analysieren, um wertvolle Erkenntnisse zu gewinnen.