Concepts de base
テキストから画像への拡散モデルを、人間の効用を最大化することで整列させる。ペアの好み情報を収集する必要がなく、単純なイメージごとのバイナリフィードバックのみで学習できる。
Résumé
本論文では、Diffusion-KTOと呼ばれる新しい手法を提案している。これは、テキストから画像への拡散モデルを人間の好みに合わせて整列させるためのものである。従来の手法では、ペアの好み情報を収集する必要があり、コストがかかっていた。Diffusion-KTOでは、単純なイメージごとのバイナリフィードバック(好き/嫌い)のみを使用して学習できる。
具体的には以下の通り:
- 人間の効用最大化の枠組みをテキストから画像への拡散モデルに拡張した
- 効用関数として、Kahneman-Tverskyモデルが最も良い結果を示した
- 人間評価と自動評価指標の両方で、Diffusion-KTOアラインドモデルが既存手法を大きく上回る性能を示した
- 個人ユーザーの好みに合わせてモデルを整列させる実験も行い、Diffusion-KTOの有効性を確認した
Diffusion-KTOは、人間の好みに合わせてテキストから画像への拡散モデルを整列させる新しい手法であり、ペアの好み情報を必要とせず、簡単なバイナリフィードバックのみで学習できるという特徴がある。
Stats
人間の好みに合わせてテキストから画像への拡散モデルを整列させることで、PickScore指標で84.0%、ImageReward指標で60.6%の勝率を達成した。
人間評価実験では、Diffusion-KTOアラインドモデルがStable Diffusion v1.5に対して75%の勝率、Diffusion-DPOに対して69%の勝率を示した。