本研究では、拡散モデルを用いた画像編集の課題に取り組んでいる。拡散モデルは画像生成の優れた能力と使いやすさから注目を集めているが、特定の画像編集タスクに適用する際には課題がある。
分析の結果、拡散モデルのデノイジングネットワークは低周波成分を優先的に回復するため、特定の画像編集に適合しないことが明らかになった。これは、自然画像のパワースペクトルが低周波数域で高くなる特性と、拡散プロセスにおける雑音スケジュールの関係によるものである。
そこで本研究では、周波数トランケーションを段階的に適用することで、編集対象領域の特定の周波数帯域を選択的に強調する手法「FreeDiff」を提案した。これにより、さまざまな画像編集タスクに対して汎用的な編集が可能となる。
具体的には、編集対象の応答期間中のみ周波数トランケーションを適用し、それ以外の期間では空のガイダンスを使用する。また、低周波成分の除去と高周波成分の保持のためのしきい値処理も行う。
提案手法の有効性は、さまざまな画像編集タスクにおける定性的・定量的な評価結果から確認できる。従来の注意機構に基づく手法と比較して、本手法は汎用性が高く、かつ編集対象領域と非編集領域のバランスが取れた編集結果を得ることができる。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Wei Wu,Qingn... at arxiv.org 04-19-2024
https://arxiv.org/pdf/2404.11895.pdfDeeper Inquiries