Conceptos Básicos
HiDiffusion は、事前学習済みの拡散モデルを活用して、高解像度の画像を効率的に生成することができる。オブジェクトの重複を解消し、高品質な画像を生成できる。
Resumen
本論文では、HiDiffusion と呼ばれる新しい手法を提案している。HiDiffusion は、事前学習済みの拡散モデルを活用して高解像度の画像を生成することができる。
具体的には以下の2つの特徴がある:
- Resolution-Aware U-Net (RAU-Net)
- 深層ブロックでの特徴マップの重複を解消するため、特徴マップのサイズを動的に調整する
- これにより、オブジェクトの重複を防ぐことができる
- Modified Shifted Window Multi-head Self-Attention (MSW-MSA)
- 上位ブロックの計算コストの大部分を占める自己注意機構を最適化
- 大きなウィンドウサイズと時間方向のウィンドウシフトを導入
- これにより、大幅な高速化を実現しつつ、画質を維持できる
HiDiffusion は、Stable Diffusion 1.5、2.1、SDXL Turbo、SDXL などの事前学習済みモデルに統合することができ、1024×1024、2048×2048、4096×4096 といった高解像度の画像を効率的に生成できる。従来手法と比較して、より高品質な画像を短時間で生成できることが示されている。
Estadísticas
拡散モデルを用いて2048×2048解像度の画像を生成する際、直接推論では165秒かかるが、HiDiffusionでは58秒と2.83倍高速化できる。
4096×4096解像度の画像生成では、直接推論では769秒かかるが、HiDiffusionでは287秒と2.68倍高速化できる。
Citas
"Diffusion models have become a mainstream approach for high-resolution image synthesis. However, directly generating higher-resolution images from pretrained diffusion models will encounter unreasonable object duplication and exponentially increase the generation time."
"We discover that object duplication arises from feature duplication in the deep blocks of the U-Net. Concurrently, We pinpoint the extended generation times to self-attention redundancy in U-Net's top blocks."