מושגי ליבה
Exploring diverse, semantically accurate image reconstructions through zero-shot text guidance.
תקציר
この論文では、ゼロショットのテキストガイドによるオープンドメイン画像の超解像度探索問題が紹介されています。テキストプロンプトを介して、異なる大きなダウンサンプリングファクターに対してデータ整合性を保ちつつ多様で意味のある再構成を探索する目的です。提案手法は、事前に訓練された拡散ベースのT2Iモデルを使用してゼロショット回復を行うことで、入力テキストプロンプトと一致しつつ観測と整合性を維持することが示されています。提案手法は、多様な解決策を提供し、入力テキストプロンプトに適合したデータ整合性の向上が実証されています。
סטטיסטיקה
DPS[12] 16× SRにおけるLR PSNR(dB): 51.98dB
DDNM[81] 16× SRにおけるLR PSNR(dB): 80.91dB
[68]+DDNM 16× SRにおけるLR PSNR(dB): 51.86dB
[64]+DDNM 16× SRにおけるLR PSNR(dB): 66.30dB
CLIP guided[68]+ΠGDM Faces 16× SRにおけるLR PSNR(dB): 51.08dB
ציטוטים
"Text guided image Super-resolution."
"We explore consistent reconstructions to image super-resolution problems through text prompts while achieving perfect data consistency with the given inputs for all solutions."
"The use of text also effortlessly improves diversity in solutions for face super-resolution in terms of age, expression, gender, race, and other attributes over existing methods."