Conceitos essenciais
事前学習済み拡散モデルと新規フレームワークPixelsmithを用いることで、ギガピクセル級の超高解像度画像を単一のGPUで生成することが可能になる。
Resumo
Pixelsmith: 単一GPUを用いた高解像度画像生成
本論文は、事前学習済み拡散モデルを用いて高解像度画像を生成する新規フレームワーク「Pixelsmith」を提案する研究論文である。
従来の拡散モデルにおける高解像度画像生成の課題を克服し、単一のGPUでギガピクセル級の画像生成を可能にする。
事前学習済みモデルを活用することで、追加学習やファインチューニングを不要とし、計算コストと環境負荷を低減する。
カスケードアップサンプリング: 低解像度のベース画像を生成し、段階的にアップサンプリングを繰り返すことで、超高解像度を実現する。
パッチベースノイズ除去: 画像全体ではなく、ランダムに選択されたパッチ単位でノイズ除去を行うことで、メモリ使用量を大幅に削減する。
「スライダー」メカニズム: ベース画像の構造情報を保持しながら、高解像度画像の細部を段階的に強化する調整可能なメカニズムを導入する。
マスクを用いたガイド: パッチ間のテキストプロンプトの重複を防ぎ、アーティファクトを抑制するために、チェッカーボード状のマスクを用いて画像ガイダンスを統合する。