Der Artikel stellt eine Methode namens Regulierte Best-of-N-Stichprobennahme (RBoN) vor, um das Problem der Belohnungsmanipulation bei der Ausrichtung von Sprachmodellen auf menschliche Präferenzen zu mindern.
Die Autoren erklären, dass Belohnungsmanipulation auftritt, wenn das Sprachmodell den Proxy-Belohnungsindikator, der aus menschlichen Präferenzen abgeleitet wird, überoptimiert, ohne dabei die eigentliche Zielgröße zu optimieren. Dies kann die Leistung des Modells beeinträchtigen.
Um dies zu verhindern, schlagen die Autoren zwei Varianten von RBoN vor: RBoNKL, das eine KL-Divergenz-Regularisierung verwendet, und RBoNWD, das eine Wasserstein-Distanz-Regularisierung verwendet. Diese Regularisierungsterme sollen das Modell daran hindern, sich zu weit von einem Referenzmodell zu entfernen.
Die Experimente auf dem AlpacaFarm-Datensatz zeigen, dass RBoN die Leistung von herkömmlichem Best-of-N-Sampling übertriff, insbesondere wenn der Proxy-Belohnungsindikator nur schwach mit dem eigentlichen Ziel korreliert ist. RBoNWD erweist sich dabei als robuster gegenüber der Wahl des Regularisierungsparameters als RBoNKL.
Darüber hinaus zeigen die Autoren, dass ein auf RBoN basierter Datensatz für paarweises Präferenzlernen zu besseren Ergebnissen führt als ein auf herkömmlichem Best-of-N-Sampling basierender Datensatz.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문