核心概念
自己生成データを用いて拡散モデルを繰り返しファインチューニングすると、画像の質が低下する「モデル崩壊」と呼ばれる現象が発生する。本稿では、この現象を定量的形質モデリングという新しい視点から分析し、その要因として分類器フリーガイダンス(CFG)スケールが重要な役割を果たすことを明らかにする。さらに、モデル崩壊を軽減するためのシンプルかつ効果的な戦略として、条件付きドロップファインチューニングとCFGスケジューリングを組み合わせた「再利用可能な拡散ファインチューニング(ReDiFine)」を提案する。
要約
拡散モデルの自己崩壊:定量的形質モデリングに基づく新規視点
Youngseok Yoon, Dainong Hu, Iain Weissburg, Yao Qin, Haewon Jeong. (2024). MODEL COLLAPSE IN THE SELF-CONSUMING CHAIN OF DIFFUSION FINETUNING: A NOVEL PERSPECTIVE FROM QUANTITATIVE TRAIT MODELING. arXiv preprint arXiv:2407.17493v2.
本研究は、事前学習済みテキスト-画像拡散モデルを、前の反復で生成された合成画像を使用してファインチューニングする「拡散の連鎖」におけるモデル崩壊を調査することを目的とする。