Core Concepts
リソース制限の厳しいエッジデバイスでも、高品質な画像を短時間で生成できる手法を提案する。
Abstract
本研究では、テキストから画像を生成するStable Diffusion (SD)モデルを、リソース制限の厳しいエッジデバイスでも高速に動作させるための手法「EdgeFusion」を提案している。
主な取り組みは以下の通り:
軽量化されたBK-SDMモデルをベースとし、高品質な合成データを活用することで生成性能を向上させた。
Latent Consistency Model (LCM)の学習プロセスを改善し、2~4ステップでの高品質な画像生成を実現した。
モデルレベルのタイリング、量子化などの最適化手法を適用し、Samsung Exynos NPUで1秒以内の推論を達成した。
これらの取り組みにより、リソース制限の厳しいエッジデバイスでも、高品質な画像を短時間で生成できるようになった。
Stats
従来のStable Diffusion v1.4と比べ、推論時間が10.3倍高速化された。
Samsung Exynos NPUでは、モデルレベルのタイリングにより、推論時間が約73%短縮された。
Quotes
"リソース制限の厳しいエッジデバイスでも、高品質な画像を短時間で生成できるようになった。"
"高品質な合成データを活用し、Latent Consistency Modelの学習プロセスを改善することで、2~4ステップでの高品質な画像生成を実現した。"