本論文では、MegaFusionと呼ばれる新しいアプローチを提案している。MegaFusionは、既存のディフューション・ベースのテキスト-画像生成モデルの能力を拡張し、追加のファインチューニングなしで高解像度の画像を生成することができる。
具体的には、MegaFusionは以下の3つの主要な特徴を持つ:
切り詰めと中継(truncate and relay)戦略: 異なる解像度間の生成プロセスを滑らかに接続することで、粗い解像度から細かい解像度への段階的な生成を実現する。これにより、効率的な高解像度画像生成が可能となる。
拡張されたディレーテッド畳み込み: 受容野を拡大することで、より正確なセマンティクスと詳細な画像生成を可能にする。
ノイズ再スケジューリング: 異なる解像度の画像に適したノイズレベルを調整することで、生成画像の品質と忠実度を向上させる。
これらの手法を組み合わせることで、MegaFusionは既存のラテント空間およびピクセル空間のディフューション・モデルに対して、効率的かつ汎用的に高解像度画像生成の能力を拡張することができる。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Haoning Wu, ... lúc arxiv.org 09-10-2024
https://arxiv.org/pdf/2408.11001.pdfYêu cầu sâu hơn