本研究では、報酬ハッキングの問題を軽減するために、ベストオブN(BoN)サンプリングに近接正則化を導入した手法であるRegularized Best-of-N (RBoN)を提案している。
RBoNには2つのバリアントが提案されている:
RBoNKLは実装が簡単だが、正則化強度βの選択に依存する。一方、RBoNWDはβの選択に対してより頑健である。
実験では、AlpacaFarmデータセットを用いて評価を行った。その結果、両RBoNバリアントともにBoNを上回るパフォーマンスを示し、特に代理報酬モデルと真の目的関数の相関が低い場合に有効であることが分かった。
また、RBoNWDを用いて生成したペアワイズ選好データセットを使ってDPOモデルを学習すると、BoNを用いて生成したデータセットを使った場合よりも良いパフォーマンスが得られることも示された。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Yuu Jinnai,T... о arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.01054.pdfГлибші Запити