核心概念
TweedieMixは、カスタマイズされた拡散モデルを推論段階で合成することで、複数の個別コンセプトを効果的に統合した高品質な画像や動画を生成する、新しい複数コンセプト融合手法である。
要約
TweedieMix: 拡散ベースの画像・動画生成における複数コンセプト融合の改善
この論文は、テキストから画像への生成や動画生成モデルのカスタマイズにおける進歩にもかかわらず、複数の個別コンセプトを効果的に統合した画像や動画の生成は依然として困難な課題であることを指摘するところから始まる。この課題に対処するために、推論段階でカスタマイズされた拡散モデルを合成する新しい手法であるTweedieMixを提案している。
既存の複数コンセプト融合手法は、複数コンセプトの同時埋め込みのための共同トレーニングや、単一コンセプトのカスタマイズモデルパラメータの重み付けマージを用いている。しかし、これらの手法は、より多くのコンセプトへのスケーリングや、意味的に類似したコンセプトを扱う場合に課題に直面し、しばしばコンセプトのブレンドや特定のコンセプトの消失につながる。
TweedieMixは、逆拡散サンプリングのプロパティを分析することで、サンプリングプロセスを2つの段階に分割する。
コンテンツアウェアサンプリング: 最初のステップでは、複数のオブジェクトアウェアサンプリング手法を適用し、目的のターゲットオブジェクトがすべて含まれるようにする。この段階では、高品質なテキスト画像整合性を実現するために、また、後に複数コンセプト融合を行うノイズ除去された画像空間で滑らかに変化する事後平均を使用することが重要であるため、CFG++フレームワークを利用する。さらに、複数オブジェクトの生成を強化するために、複数オブジェクトアウェアテキスト条件と単一オブジェクトテキスト条件を用いてノイズ除去された出力を調整するリサンプリング戦略を導入している。
複数コンセプト融合サンプリング: 後のステップでは、Tweedieの公式を用いて、ノイズ除去された画像空間におけるカスタムコンセプトの外観をブレンドする。このアプローチにより、アテンションマップやノイズの多い潜在空間を使用するよりも、より安定した複数コンセプト融合が可能になる。Tweedieのノイズ除去空間で領域ごとに異なる微調整モデルを混合することで、安定した複数コンセプト融合を実現している。