本稿では、大規模言語モデルのオンライン強化学習における報酬モデルの最適化問題において、従来の手法では考慮されていなかった報酬学習と方策学習の相互依存関係を考慮した、バイレベル最適化フレームワークを提案する。