Effizientes Training eines Belohnungsmodells auf der Grundlage von Vorabbeschränkungen zur Ausrichtung großer Sprachmodelle
Ein Verfahren zum Training eines Belohnungsmodells unter Verwendung von Vorabbeschränkungen, um die Skalierung der Belohnungspunktzahlen während des Verstärkungslernens zu regulieren und die Leistung der Ausrichtung großer Sprachmodelle zu verbessern.