本稿では、言語モデルの報酬モデルを評価するための新しいベンチマークであるRM-BENCHを紹介する。RM-BENCHは、微妙な内容の違いを区別し、スタイルの偏りに対する耐性を評価することに重点を置いている。
本稿では、多言語環境における報酬モデル(RM)の性能を体系的に評価し、英語圏以外の言語におけるRMの性能が英語に比べて大幅に低下することを明らかにしました。
本稿では、RLHF後の言語モデルのパフォーマンスを予測する、実世界のヒトによる選好と相関性のある新しい報酬モデルベンチマークPPEを提案する。
報酬モデルの精度は、ダウンストリームのポリシーパフォーマンスと弱い正の相関を示すものの、精度だけではポリシー最適化への影響を反映するには不十分であり、より厳密な評価基準が必要とされている。