Die regulierte Best-of-N-Stichprobennahme (RBoN) ist eine Methode, die Belohnungsmanipulation bei der Ausrichtung von Sprachmodellen auf menschliche Präferenzen reduziert, indem sie eine Näherungsregularisierung in die Auswahl der Antworten einbezieht.
Die optimale Lösung des KL-beschränkten Verstärkungslernproblems ist eine fehlerhaft gekippte Verteilung, die mit der Charakterisierung der Fehlpassung in der Ratetheorie zusammenhängt. Jede Ausrichtungsmethode, die einen vergleichbaren Kompromiss zwischen KL-Divergenz und erwartetem Gewinn erreicht, muss diese optimale KL-beschränkte Lösung in Bezug auf die relative Entropie approximieren.