Core Concepts
超低ビットレートで実現可能な完璧なリアリズムを持つ画像圧縮モデルの開発と評価
Abstract
画像コーデックはビットレートと歪み指標のトレードオフに最適化される。
PerCoモデルは、イテレーション拡散モデルを使用して、超低ビットレートでも実在感のある画像再構築を可能にする。
テキストやグローバル画像説明に基づいて復号化プロセスを条件付けることで、PerCoモデルは他のコーデックよりも高い視覚品質を実現する。
PerCoモデルは、FIDおよびKIDによって測定された視覚品質が従来の方法よりもビットレートに依存しないことを示す。
導入
従来の画像および動画コーデックは、シャノン(1948)の速度歪み関数に最適化されている。
最近の研究では、ニューラル画像圧縮手法が速度歪み性能で手作業で作成された画像圧縮コーデックを上回っている。
Perceptual compression with a diffusion decoder
PerCoモデルは、VQ-VAEライクなエンコーダーと拡散型デコーダーを組み合わせた画像圧縮モデルである。
テキストイメージ記述に基づく2番目の条件付けストリームも含まれている。
実験結果
PerCoは非常に低いビットレート(0.003 bpp)でも実在感ある再構築が可能。
CLIPスコアやmIoUなど意味論的メトリクスが改善されており、特に低ビットレートで顕著。
Stats
512×768 Kodak image を153バイト以下で圧縮することが可能(0.003 bpp)
MS-COCO 30k dataset で最先端のFIDおよびKIDパフォーマンスを達成
Quotes
"PerCo (ours), 0.0032 bpp"
"PerCo yields significantly lower (better) FID and KID compared to other approaches at lower bitrates"