Effiziente Verarbeitung und Analyse von Inhalten zur Gewinnung von Erkenntnissen
Durch die Verwendung von zwei kontrastierenden Eingabeaufforderungen (p+ und p-) kann RLCD die Differenz zwischen den Modellausgaben (o+ und o-) verstärken, was zu saubereren Präferenzlabels ohne menschliche Annotationen führt. Das Präferenzmodell wird dann verwendet, um ein unausgerichtetes Basissprachmodell über Verstärkungslernen zu verbessern.