Core Concepts
複雑な劣化に対応できる視覚言語モデルを用いた写真のような高品質な画像修復
Abstract
本論文は、写真のような高品質な画像修復を実現するための手法を提案している。具体的には以下の3つの主要な貢献がある:
複雑な実世界の劣化を模擬するための新しい合成的な劣化パイプラインを提案した。このパイプラインは、ブラー、リサイズ、ノイズ、JPEG圧縮などの様々な劣化を含み、さらにランダムな順序で適用することで、より一般化された劣化を生成する。
劣化に適応した CLIP (DACLIP) モデルを提案した。DACLIP は、複数の劣化を含む画像-キャプション-劣化のペアを用いて学習し、低品質画像の特徴を高品質画像の特徴に近づけることで、より正確な画像修復を実現する。
逆過程サンプリングの最適化手法を提案し、IR-SDE モデルに適用することで、効率的かつ高品質な画像修復を実現した。
実験の結果、提案手法は既存の手法と比較して、合成データセットおよび実世界データセットの両方で優れた性能を示した。特に、視覚的な品質と歪み指標の両方で最良の結果を得ることができた。
Stats
合成的に生成した低品質画像から高品質画像を復元することができる。
実世界の低品質画像に対しても、高品質な修復結果を生成できる。
提案手法は、既存手法と比較して、PSNR、SSIM、LPIPS、FID、NIQE などの指標で優れた性能を示した。
Quotes
"Though diffusion models have been successfully applied to various image restoration (IR) tasks, their performance is sensitive to the choice of training datasets."
"To address this problem, this work leverages a capable vision-language model and a synthetic degradation pipeline to learn image restoration in the wild (wild IR)."
"Our base diffusion model is the image restoration SDE (IR-SDE). Built upon it, we further present a posterior sampling strategy for fast noise-free image generation."