核心概念
ガイダンスは高ノイズ領域では有害、低ノイズ領域では不要であり、中間のノイズ領域でのみ有効である。そのため、ガイダンスを最適な区間に制限することで、サンプル品質と分布品質を大幅に改善できる。
要約
本研究では、拡散モデルにおけるガイダンスの適用方法を最適化する手法を提案している。
従来のガイダンスは、ノイズ水準に関わらず一定の重みで適用されていた。しかし、ノイズ水準によってガイダンスの効果が大きく異なることが分かった。
高ノイズ領域ではガイダンスが有害で、画像の多様性を大幅に減少させる。一方、低ノイズ領域ではガイダンスがほとんど必要ない。
そこで本手法では、ガイダンスを中間のノイズ水準にのみ適用し、高低ノイズ領域では適用しないようにする。これにより、サンプル品質と分布品質が大幅に改善される。
ImageNet-512 データセットでは、従来手法の最高記録FIDが1.81だったのに対し、本手法では1.40まで改善された。また、Stable Diffusion XLなどの大規模モデルでも同様の効果が確認された。
ガイダンスの適用区間をハイパーパラメータとして公開することを提案する。これにより、拡散モデルの性能を大幅に向上できる。
統計
高ノイズ領域でのガイダンスは有害で、画像の多様性を大幅に減少させる
低ノイズ領域でのガイダンスはほとんど必要ない
中間のノイズ領域でのみガイダンスを適用することで、サンプル品質と分布品質が大幅に改善される
引用
"ガイダンスは高ノイズ領域では明らかに有害で、低ノイズ領域では不要、中間のノイズ領域でのみ有効である。"
"限定的なガイダンス区間の適用により、ImageNet-512のFIDを1.81から1.40まで大幅に改善できた。"