本研究では、拡散モデルにおけるガイダンスの適用方法を最適化する手法を提案している。
従来のガイダンスは、ノイズ水準に関わらず一定の重みで適用されていた。しかし、ノイズ水準によってガイダンスの効果が大きく異なることが分かった。
高ノイズ領域ではガイダンスが有害で、画像の多様性を大幅に減少させる。一方、低ノイズ領域ではガイダンスがほとんど必要ない。
そこで本手法では、ガイダンスを中間のノイズ水準にのみ適用し、高低ノイズ領域では適用しないようにする。これにより、サンプル品質と分布品質が大幅に改善される。
ImageNet-512 データセットでは、従来手法の最高記録FIDが1.81だったのに対し、本手法では1.40まで改善された。また、Stable Diffusion XLなどの大規模モデルでも同様の効果が確認された。
ガイダンスの適用区間をハイパーパラメータとして公開することを提案する。これにより、拡散モデルの性能を大幅に向上できる。
На другой язык
из исходного контента
arxiv.org
Ключевые выводы из
by Tuom... в arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07724.pdfДополнительные вопросы