핵심 개념
拡散モデルの高速化を実現するため、非同期的な除雑音手法を提案する。モデルを複数のコンポーネントに分割し、それぞれを別のデバイスで並列に処理することで、大幅な処理時間の短縮を実現する。
초록
本論文では、拡散モデルの高速化手法AsyncDiffを提案している。拡散モデルは優れた生成能力を持つが、多段階の逐次的な除雑音処理により高い累積遅延が生じるという課題がある。
AsyncDiffでは、この課題に対処するため、以下の手法を導入している:
- 除雑音モデルを複数のコンポーネントに分割し、それぞれを別のデバイスで並列に処理する。
- 連続する除雑音ステップ間の隠れ状態の類似性を利用し、各コンポーネントの入力を事前に準備することで、逐次的な除雑音処理を非同期的な処理に変換する。
- ストライド除雑音を導入し、複数のステップを一度に処理することで、さらなる効率化を図る。
これらの手法により、AsyncDiffは大幅な処理時間の短縮を実現しつつ、生成結果の品質を維持することができる。実験では、テキストから画像生成を行うStable Diffusionモデルで最大4倍の高速化を達成し、さらにテキストから動画生成を行うモデルでも大幅な高速化を示した。
통계
提案手法AsyncDiffは、Stable Diffusion v2.1モデルで最大4倍の高速化を実現した。
AnimateDiffモデルでは最大3.8倍の高速化を達成した。
Stable Video Diffusionモデルでは最大2.7倍の高速化を示した。
인용구
"AsyncDiffは、拡散モデルの高速化を実現する新しい並列化手法である。モデルを複数のコンポーネントに分割し、それぞれを別のデバイスで並列に処理することで、大幅な処理時間の短縮を実現する。"
"提案手法は、連続する除雑音ステップ間の隠れ状態の類似性を利用し、逐次的な除雑音処理を非同期的な処理に変換することで、並列化を可能にする。"
"ストライド除雑音の導入により、さらなる効率化を図ることができる。"