Verbesserung der Informationsstrukturen in RLHF: Belohnungsgeneralisierung aus der Perspektive der Graphentheorie
Die Kompatibilität zwischen hoher Aufgabenvielfalt, geringen Beschriftungskosten und zuverlässiger Ausrichtungsleistung ist ein Trilemma in RLHF. Dieses Trilemma kann durch die sorgfältige Gestaltung der Informationsstruktur des Präferenzdatensatzes während der Belohnungsmodellierung abgemildert werden. Die Eingeführte Bayes'sche Netzwerke (IBN) ermöglichen eine empirisch fundierte Analyse der Belohnungsgeneralisierung und zeigen, dass die baumbasierte Belohnungsmodellierung in komplexen Kontexten mit begrenzten Daten einer kettenbasierten Baseline deutlich überlegen ist.