本研究では、広く使用されているHH-RLHFデータセットの品質を分析し、ノイズを除去したCHH-RLHFデータセットを提案しました。CHH-RLHFデータセットを用いて、これまでの整列研究で使用されてきた様々なリワードモデルの精度を評価しました。その結果、多くのリワードモデルが人間の評価と一致しないことが明らかになりました。
さらに、3つの異なるリワードモデル利用パラダイム(直接リワード、間接リワード、直接好み)において、リワードモデルの品質が整列パフォーマンスに与える影響を系統的に分析しました。実験の結果、優れたリワードモデルを使用すると整列パフォーマンスが向上することが示されました。一方、品質の低いリワードモデルを使用すると、人間の評価との一致性が低下することが明らかになりました。
本研究は、リワードモデルの品質が整列研究において重要な役割を果たすことを示しています。今後の整列研究では、アルゴリズムの改善だけでなく、より信頼性の高いリワードモデルの開発にも注力する必要があります。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yan Liu, Xia... at arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19024.pdfDeeper Inquiries