この論文は、人工知能が生成したコンテンツ(AIGC)の分野における新しい研究成果を報告しています。特に、フローマッチングモデルの高速サンプリングを実現する新しい手法であるフロー生成マッチング(FGM)を提案しています。
フローマッチングモデルは、その堅牢な理論的基盤と大規模生成モデリングにおける優れた能力により、AIGCの分野で大きな注目を集めています。これらのモデルは最先端のパフォーマンスを発揮していますが、サンプリングプロセスに多段階の数値常微分方程式(ODE)の使用が必要となるため、計算リソースへの要求が非常に高いという欠点があります。
FGMは、フローマッチングモデルのサンプリングを1ステップ生成に高速化しながら、元のモデルのパフォーマンスを維持するように設計された革新的なアプローチです。この手法は、事前学習済みフローマッチングモデルの周辺ベクトル場を近似する1ステップ生成モデルを学習することによります。FGMは、学習済みモデルと目標とする周辺ベクトル場との間の期待されるL2距離を最小化する、扱いやすい目的関数を導き出します。
FGMの有効性を評価するために、CIFAR10データセットの画像生成と、Stable Diffusion 3(SD3)を用いた大規模テキスト画像生成という2つのベンチマークで実験を行いました。
CIFAR10の無条件生成ベンチマークにおいて、1ステップFGMモデルは、既存の少数ステップフローマッチングベースモデルの中で、新しい記録となるFr´echet Inception Distance(FID)スコア3.08を達成し、元の50ステップフローマッチングモデルを上回りました。
さらに、FGMを用いて、MM-DiTアーキテクチャに基づく最先端のテキスト画像フローマッチングモデルであるStable Diffusion 3を蒸留しました。その結果得られたMM-DiT-FGM 1ステップテキスト画像モデルは、GenEvalベンチマークで評価したところ、1回の生成ステップの効率性を考慮すると、他の多段階モデルに匹敵する優れた生成品質を示し、業界レベルの優れたパフォーマンスを発揮しました。
FGMは、フローマッチングモデルのサンプリングを高速化するための有望なアプローチであり、AIGCアプリケーション、特に高速で効率的なサンプリングが不可欠なシナリオにおけるフローモデルの実用性を高めます。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問