Centrala begrepp
報酬モデルの精度が高ければ高いほど、常に言語モデルのパフォーマンスが向上するとは限らない。
Sammanfattning
RLHFにおける精度のパラドックス:より良い報酬モデルは、常に優れた言語モデルを生み出すとは限らない
Chen, Y., Zhu, D., Sun, Y., Chen, X., Zhang, W., & Shen, X. (2024). The Accuracy Paradox in RLHF: When Better Reward Models Don’t Yield Better Language Models. arXiv:2410.06554v1 [cs.CL].
本研究では、強化学習に基づく人間からのフィードバック(RLHF)において、報酬モデルの精度が言語モデルのパフォーマンスに与える影響を調査しています。具体的には、報酬モデルの精度が高ければ高いほど、常に言語モデルのパフォーマンスが向上するとは限らないという「精度のパラドックス」を検証しています。