核心概念
PerCo (SD) 是一種基於 Stable Diffusion v2.1 的感知圖像壓縮方法,針對超低比特率範圍。它提供了一個開放和有競爭力的替代方案,相比於依賴專有 GLIDE 變體的現有最先進方法 PerCo。
摘要
本文介紹了 PerCo (SD) 的理論基礎,討論了將 PerCo 適應到 Stable Diffusion 生態系統的關鍵工程決策,並提供了全面的定量和定性比較。在 MSCOCO-30k 數據集上,PerCo (SD) 在感知特性方面有所改善,但在失真方面有所犧牲。這一差距部分歸因於所使用的模型容量不同(866M vs. 1.4B)。作者希望這項工作有助於對底層機制的更深入理解,並為未來在這個領域的進步鋪平道路。代碼和訓練好的模型將在 https://github.com/Nikolai10/PerCo 發佈。
統計資料
一個 VGA 分辨率(480 × 640)的圖像,在 0.003bpp 的比特率下只需約 115 字節,小於一條推特的大小。
PerCo (SD) 在 MSCOCO-30k 數據集上的最低比特率配置為 0.0036bpp,FID 和 KID 分別為 4.49 和 0.0009,優於 PerCo 在 0.0041bpp 時的 5.49 和 0.0011。
PerCo (SD) 在 CLIP 得分和語義保留(mIoU)方面也優於 PerCo,但在失真指標(MS-SSIM, LPIPS)方面略有不如。
引述
"PerCo (SD) 是一種基於 Stable Diffusion v2.1 的感知圖像壓縮方法,針對超低比特率範圍。"
"PerCo (SD) 提供了一個開放和有競爭力的替代方案,相比於依賴專有 GLIDE 變體的現有最先進方法 PerCo。"
"作者希望這項工作有助於對底層機制的更深入理解,並為未來在這個領域的進步鋪平道路。"