Palit, S., Dendi, S.V.R., Talluri, M., & Gadde, R.N. (2024). Scalable, Tokenization-Free Diffusion Model Architectures with Efficient Initial Convolution and Fixed-Size Reusable Structures for On-Device Image Generation. arXiv preprint arXiv:2411.06119v1 [cs.CV].
本研究は、オンデバイス画像生成のための拡散モデルにおいて、従来のVision TransformerやU-Netアーキテクチャの課題を克服し、スケーラブルでトークン化不要、ハードウェア効率の高いニューラルネットワークアーキテクチャを提案することを目的とする。
本研究では、固定サイズの再利用可能なトランスフォーマーブロックをコア構造として利用する新しいアーキテクチャを提案する。このアーキテクチャは、トークン化を用いず、位置埋め込みも不要とすることで、Vision Transformerのオーバーヘッドを削減する。また、初期畳み込みブロックを用いることで、U-Netのように可変サイズのブロックを用いる必要性をなくし、ハードウェアへの実装を容易にする。提案手法の有効性を検証するため、CIFAR-10、CelebA、MSCOCOデータセットを用いて、無条件およびテキスト条件付き画像生成タスクの両方で実験を行った。
提案モデルは、無条件および条件付き画像生成タスクの両方において、競争力のある一貫したパフォーマンスを示した。具体的には、無条件画像生成において、CelebAで1.6、CIFAR-10で3.05という最先端のFIDスコアを達成した。また、テキスト条件付き画像生成においても、MSCOCOデータセットにおいて、既存のGANベースのモデルよりも少ないパラメータ数で、FIDスコア8.69を達成した。
本研究で提案されたSTOICモデルは、無条件および条件付き画像合成のための堅牢なフレームワークを提供し、計算リソースをより効率的に使用してベンチマークを上回る。スケーラブルなトランスフォーマーブロックの柔軟性と複雑さの軽減を提供するが、トークン化のオーバーヘッドや位置埋め込みの必要性がない、Vision Transformerに酷似したアーキテクチャを提示する。テキスト条件付き画像生成では、潜在空間における拡散プロセスは、パフォーマンスとリソース効率のバランスをとるモデルの能力を強調しており、無条件画像生成の結果は、ピクセル空間におけるその有効性をさらに示している。
本研究は、オンデバイス画像生成における拡散モデルの適用範囲を広げるものである。提案アーキテクチャは、モバイルデバイスやリソースの限られたデバイスへの展開に適しており、高品質な画像生成を可能にする。
本研究では、画像生成タスクに焦点を当てていますが、提案されたアーキテクチャは、他のドメイン(例えば、音声、動画)にも適用できる可能性がある。また、ハードウェア実装のさらなる最適化を探求することも、将来の研究の興味深い方向性である。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問