核心概念
報酬モデルやペアの人間によるアノテーションデータを使用せずに、拡散モデルを人間の選好に合わせた新しい選好最適化手法であるSePPOが提案されている。
要約
SePPO: 拡散モデルのアラインメントのための準ポリシー選好最適化
この論文は、テキストから画像、テキストから動画への生成タスクにおいて、拡散モデルを人間の選好に合わせるための新しい選好最適化手法であるSePPO (Semi-Policy Preference Optimization) を提案しています。
拡散モデルは、高品質な画像や動画を生成できるため、AIGC (AI-Generated Content) 産業で重要な要素技術となっています。しかし、既存の事前学習済み拡散モデルは、人間の要求に十分に合致しない場合があります。そのため、人間のフィードバックからの強化学習 (RLHF) を用いて、拡散モデルを人間の選好に合わせる試みがなされています。
RLHFには、オンポリシーとオフポリシーの2つの主要なアプローチがあります。しかし、オンポリシー手法は報酬モデルの汎化能力に制限され、オフポリシー手法は、特に視覚生成タスクにおいて、入手困難なペアの人間によるアノテーションデータを大量に必要とします。
SePPOは、報酬モデルやペアの人間によるアノテーションデータを使用せずに、拡散モデルを人間の選好に合わせることを目的としています。SePPOは、過去のチェックポイントを参照モデルとして活用し、それらを用いてオンポリシーの参照サンプルを生成します。この参照サンプルは、選好ペアにおける「負け画像」を置き換えます。このアプローチにより、「勝ち画像」のみを用いたオフポリシーでの最適化が可能になります。
さらに、SePPOは、ポリシー空間における探索を拡大する参照モデル選択戦略を採用しています。具体的には、過去のすべてのチェックポイントからランダムに参照モデルを選択します。
SePPOは、参照サンプルを学習のための単なる負の例として扱うのではなく、アンカーベースの基準を設計して、参照サンプルが勝ち画像である可能性が高いか、負け画像である可能性が高いかを評価します。これにより、モデルは生成された参照サンプルから選択的に学習することができます。このアプローチは、参照サンプルの品質の不確実性によって引き起こされるパフォーマンスの低下を軽減します。