本研究では、報酬ハッキングの問題を軽減するために、ベストオブN(BoN)サンプリングに近接正則化を導入した手法であるRegularized Best-of-N (RBoN)を提案している。
RBoNには2つのバリアントが提案されている:
RBoNKLは実装が簡単だが、正則化強度βの選択に依存する。一方、RBoNWDはβの選択に対してより頑健である。
実験では、AlpacaFarmデータセットを用いて評価を行った。その結果、両RBoNバリアントともにBoNを上回るパフォーマンスを示し、特に代理報酬モデルと真の目的関数の相関が低い場合に有効であることが分かった。
また、RBoNWDを用いて生成したペアワイズ選好データセットを使ってDPOモデルを学習すると、BoNを用いて生成したデータセットを使った場合よりも良いパフォーマンスが得られることも示された。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Yuu Jinnai,T... alle arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.01054.pdfDomande più approfondite