近接報酬差分予測(PRDP)は、拡散モデルの報酬最大化を安定的に行うことができる新しい手法である。従来の強化学習ベースの手法とは異なり、PRDPは監督学習の回帰問題に置き換えることで、大規模なプロンプトデータセットでの学習を可能にしている。