本研究では、テキストから画像への生成タスクにおける潜在拡散モデルのスケーリング特性を調査した。
まず、39Mから5Bまでのサイズ範囲で12種類の潜在拡散モデルを新規に学習した。これらのモデルを用いて、テキストから画像への生成性能を評価した。その結果、学習に使用したコンピューティングリソースと生成性能の間に明確な相関関係があることが分かった。
次に、これらの事前学習済みモデルを用いて、超解像や夢の中のキャラクター生成などの下流タスクでの性能を評価した。その結果、事前学習時のモデルサイズが大きいほど、下流タスクでの性能も高くなることが分かった。
さらに、同じ推論コストの条件下で、モデルサイズと生成性能の関係を詳しく分析した。その結果、同じ推論コストでは、必ずしも大きなモデルが優れた性能を発揮するわけではなく、むしろ小さなモデルのほうが優れた性能を示すことが分かった。
この傾向は、確率的なDDPMサンプラーや高次のDPM-Solver++サンプラーを使った場合でも同様に観察された。また、蒸留によってモデルを高速化した場合でも、同様の傾向が見られた。
以上の結果から、潜在拡散モデルのスケーリング特性を理解し、限られた推論コストの中で最適なパフォーマンスを発揮するモデルサイズを選択することが重要であることが示唆された。
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Kangfu Mei,Z... ב- arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01367.pdfשאלות מעמיקות