核心概念
近接報酬差分予測(PRDP)は、拡散モデルの報酬最大化を安定的に行うことができる新しい手法である。従来の強化学習ベースの手法とは異なり、PRDPは監督学習の回帰問題に置き換えることで、大規模なプロンプトデータセットでの学習を可能にしている。
摘要
本論文では、拡散モデルの報酬ファインチューニングのための新しい手法「近接報酬差分予測(PRDP)」を提案している。
- 従来の強化学習ベースの手法は、大規模なプロンプトデータセットでの学習が不安定であるという課題があった。
- PRDPは、報酬最大化の目的関数を監督学習の回帰問題に置き換えることで、この課題を解決している。具体的には、生成画像のペアの報酬差分を予測するように拡散モデルを学習させる。
- 理論的に、報酬差分の完全な予測ができる拡散モデルが、報酬最大化の最適解となることを示している。
- また、近接更新と オンライン最適化を導入することで、学習の安定性と生成画質の向上を実現している。
- 実験では、大規模なプロンプトデータセットでの学習において、PRDPが従来手法を大きく上回る性能を示している。特に、未知のプロンプトに対する生成画質が大幅に改善されている。
統計資料
拡散モデルを最大尤度学習すると、ユーザの好みとは必ずしも一致しない画像が生成される。
報酬ファインチューニングにより、ユーザの好みに合った画像を生成することができる。
従来の強化学習ベースの手法は、大規模なプロンプトデータセットでの学習が不安定であった。
引述
"報酬ファインチューニングは、基盤モデルをダウンストリームの目的に合わせるための有望なアプローチとして浮上してきた。"
"しかし、ビジョンドメインでは、既存の強化学習ベースの報酬ファインチューニング手法は、大規模な学習における不安定性により、複雑で未知のプロンプトに一般化することができない。"
"PRDPは、100,000を超えるプロンプトデータセットでの黒箱報酬ファインチューニングを初めて実現した。"