核心概念
保存されたチェックポイントの適切な線形組み合わせにより、一貫性モデルと拡散モデルの性能を大幅に向上させることができる。
摘要
本論文では、一貫性モデル(CM)と拡散モデル(DM)の訓練プロセスを分析し、保存されたチェックポイントを適切に組み合わせることで、これらのモデルの性能を大幅に向上させることができることを示した。
具体的には以下の2つの用途を示した:
- 訓練コストの削減
- CMとDMの訓練には多大なコストがかかるが、提案手法LCSCを適用することで、同等の性能を維持しつつ、訓練時間を大幅に短縮できる。
- 例えば、CIFAR-10のCMでは23倍、ImageNet-64のCMでは15倍の高速化を達成した。
- 事前学習モデルの性能向上
- 事前学習済みのモデルに対してもLCSCを適用することで、生成品質や推論速度を大幅に向上させることができる。
- DMでは、NFEを15から9に削減しつつ、生成品質を維持できた。CMでは、NFE=1でベースラインモデルのNFE=2を上回る性能を達成した。
LCSCは勾配計算を必要とせず、メトリックの勾配が計算できない場合でも最適化できるという特徴を持つ。また、DM/CMに特有の性質を活かすことで、より効果的に機能する。
統計資料
訓練コスト削減の例:
CIFAR-10のCMでは、50K回の訓練でベースラインの800K回訓練と同等の性能(FID 3.18)を達成し、14倍の高速化を実現した。
ImageNet-64のCMでは、300K回の訓練でベースラインの600K回訓練より優れた性能(FID 5.71)を示し、15倍の高速化を実現した。
事前学習モデルの性能向上の例:
CIFAR-10のDMでは、NFEを15から9に削減しつつ、生成品質を維持できた。
CIFAR-10のCMでは、NFE=1でベースラインのNFE=2を上回る性能(FID 2.38)を達成した。