核心概念
ディフュージョンモデルの中間特徴から学習した小規模なreadoutヘッドを使うことで、効率的に様々な制御を実現できる。
摘要
本論文では、Readout Guidanceと呼ばれる手法を提案している。この手法は、事前に学習済みのテキスト生成ディフュージョンモデルの中間特徴から、少量のデータで効率的に様々な制御を学習するものである。
具体的には以下の手順で行う:
- ディフュージョンモデルの中間特徴から、少量のデータを使って様々な特徴(姿勢、深度、対応関係、外観の類似性など)を予測するreadoutヘッドを学習する。
- 生成時にこれらのreadoutを目標値と比較し、その差分を勾配として使ってサンプリングを制御する。
これにより、大規模なデータセットを必要とせずに、ポーズ制御、ドラッグ操作、アイデンティティ保持など、様々な制御を実現できる。また、既存の条件付き生成モデルとも組み合わせることができる。
統計資料
姿勢推定の精度は、わずか100枚の学習データでも、既存の大規模学習モデルと同等の性能を発揮する。
姿勢推定の精度は、学習データ量を増やすほど向上する。8.5k枚の学習データを使うと、既存モデルの2.3倍の精度を達成する。
引述
"ディフュージョンモデルの中間特徴から、少量のデータで効率的に様々な制御を学習できる"
"大規模なデータセットを必要とせずに、ポーズ制御、ドラッグ操作、アイデンティティ保持など、様々な制御を実現できる"