Core Concepts
Die Kompatibilität zwischen hoher Aufgabenvielfalt, geringen Beschriftungskosten und zuverlässiger Ausrichtungsleistung ist ein Trilemma in RLHF. Dieses Trilemma kann durch die sorgfältige Gestaltung der Informationsstruktur des Präferenzdatensatzes während der Belohnungsmodellierung abgemildert werden. Die Eingeführte Bayes'sche Netzwerke (IBN) ermöglichen eine empirisch fundierte Analyse der Belohnungsgeneralisierung und zeigen, dass die baumbasierte Belohnungsmodellierung in komplexen Kontexten mit begrenzten Daten einer kettenbasierten Baseline deutlich überlegen ist.
Abstract
Die Studie präsentiert zunächst einen Autoencoding-Rahmen, der den RLHF-Prozess als einen Autoencoding-Prozess formalisiert, bei dem die Konsistenz zwischen menschlicher Präferenz und Modellverhalten das Ziel ist. Basierend auf diesem Rahmen wird dann das Induzierte Bayes'sche Netzwerk (IBN) eingeführt, eine neue Theorie der Belohnungsgeneralisierung, die eine empirisch fundierte Ableitung von Generalisierungsfehlergrenzwerten ermöglicht.
Die Analyse des IBN zeigt, dass in komplexen Kontexten mit begrenzten Daten die baumbasierte Belohnungsmodellierung, bei der die Präferenzdaten als Präfixbaum strukturiert sind, bis zu Θ(log |D|/log log |D|) Mal weniger Varianz aufweist als die herkömmliche kettenbasierte Baseline, wobei |D| die Datensatzgröße ist. In der Praxis erreicht die baumbasierte Belohnungsmodellierung auf drei NLP-Aufgaben im Durchschnitt eine Gewinnquote von 65% gegenüber den kettenbasierten Baselines.
Stats
In komplexen Kontexten mit begrenzten Daten induziert die baumbasierte Belohnungsmodellierung bis zu Θ(log |D|/log log |D|) Mal weniger Varianz als die kettenbasierte Baseline, wobei |D| die Datensatzgröße ist.
Auf drei NLP-Aufgaben erreicht die baumbasierte Belohnungsmodellierung im Durchschnitt eine Gewinnquote von 65% gegenüber den kettenbasierten Baselines.
Quotes
"In komplexen Kontexten mit begrenzten Daten induziert die baumbasierte Belohnungsmodellierung bis zu Θ(log |D|/log log |D|) Mal weniger Varianz als die kettenbasierte Baseline, wobei |D| die Datensatzgröße ist."
"Auf drei NLP-Aufgaben erreicht die baumbasierte Belohnungsmodellierung im Durchschnitt eine Gewinnquote von 65% gegenüber den kettenbasierten Baselines."