Konsep Inti
報酬ハッキングを軽減するために、ベストオブN(BoN)サンプリングに近接正則化を導入した手法を提案する。
Abstrak
本研究では、報酬ハッキングの問題を軽減するために、ベストオブN(BoN)サンプリングに近接正則化を導入した手法であるRegularized Best-of-N (RBoN)を提案している。
RBoNには2つのバリアントが提案されている:
RBoNKL: KLダイバージェンスを近接正則化に使用
RBoNWD: ワッサーシュタイン距離を近接正則化に使用
RBoNKLは実装が簡単だが、正則化強度βの選択に依存する。一方、RBoNWDはβの選択に対してより頑健である。
実験では、AlpacaFarmデータセットを用いて評価を行った。その結果、両RBoNバリアントともにBoNを上回るパフォーマンスを示し、特に代理報酬モデルと真の目的関数の相関が低い場合に有効であることが分かった。
また、RBoNWDを用いて生成したペアワイズ選好データセットを使ってDPOモデルを学習すると、BoNを用いて生成したデータセットを使った場合よりも良いパフォーマンスが得られることも示された。
Statistik
報酬モデルSHP-LargeとSHP-XLの相関係数は0.66と高い
報酬モデルSHP-LargeとOASSTの相関係数は0.29と低い
報酬モデルSHP-LargeとPairRMの相関係数は0.20と低い