RLCD ist eine Methode zur Ausrichtung von Sprachmodellen, bei der Präferenzpaare ohne menschliches Feedback aus zwei kontrastierenden Modellausgaben generiert werden.
Zunächst werden zwei Eingabeaufforderungen p+ und p- erstellt, die darauf abzielen, die Modellausgabe in entgegengesetzte Richtungen zu lenken, z.B. in Richtung Harmlosigkeit oder Schädlichkeit. Aus diesen Eingabeaufforderungen werden dann die Modellausgaben o+ und o- generiert, wobei o+ automatisch als bevorzugt gekennzeichnet wird.
Anschließend wird ein Präferenzmodell auf Basis dieser simulierten Präferenzpaare trainiert. Dieses Präferenzmodell wird dann verwendet, um das ursprüngliche, nicht ausgerichtete Sprachmodell über Verstärkungslernen zu verbessern.
Im Vergleich zu RLAIF-Baselines, bei denen die Präferenzpaare aus zwei zufälligen Ausgaben generiert werden, führt der kontrastive Ansatz von RLCD zu einer deutlicheren Differenzierung der Ausgaben und damit zu saubereren Präferenzlabels. Im Vergleich zu reinen Kontextdistillationsansätzen kann RLCD zusätzlich das Kontrastpaar für das Verstärkungslernen nutzen.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Kevin Yang,D... at arxiv.org 03-19-2024
https://arxiv.org/pdf/2307.12950.pdfDeeper Inquiries