Core Concepts
拡散モデルを使用して、高品質なテキスト画像超解像度を実現する方法を提案します。
Abstract
最近の研究では、拡散モデルが自然画像合成と復元で成功を収めており、テキスト画像にも適用可能です。本研究では、Image Diffusion Model(IDM)とText Diffusion Model(TDM)を組み合わせて、高いテキスト忠実度とスタイルリアリズムを持つテキスト画像の復元を実現します。さらに、Mixture of Multi-modality module(MoM)を導入して、これら2つの拡散モデルが協力し合うようにします。実験結果は、提案手法が既存手法よりも優れた性能を示すことを示しています。
Stats
拡散モデルは自然画像合成や復元で成功している(15, 37)
Image Diffusion Model(IDM)は安定した拡散に基づいており、リアルなスタイルのテキスト画像を復元する(33)
Text Diffusion Model(TDM)はテキストシーケンスの分布モデリングに適しており、正確なテキスト事前情報を提供する(17)
Quotes
"DiffTSRは高いスタイルリアリズムとテキスト忠実度でHRテキスト画像を復元できます。"
"MoMはIDMとTDMが拡散プロセス中に適切に協力するようにします。"