Centrala begrepp
본 연구는 압축 VAE와 사전 학습된 텍스트-이미지 확산 모델을 결합하여 극도의 낮은 비트율에서도 사실적이고 고충실도의 이미지 복원을 달성하는 새로운 극도 이미지 압축 프레임워크를 제안한다.
Sammanfattning
본 연구는 극도의 낮은 비트율(0.1 bpp 미만)에서 이미지를 압축하는 문제를 다룬다. 기존 극도 이미지 압축 방법들은 심각한 압축 아티팩트 또는 낮은 충실도 복원 결과를 보였다. 이를 해결하기 위해 본 연구는 압축 VAE와 사전 학습된 텍스트-이미지 확산 모델을 결합한 새로운 극도 이미지 압축 프레임워크를 제안한다.
구체적으로, 제안하는 잠재 특징 가이드 압축 모듈은 압축 VAE 기반으로 이미지를 압축하고 초기에 압축 정보를 콘텐츠 변수로 디코딩한다. 외부 가이드를 활용하여 중간 특징 맵을 동적으로 조절함으로써 복원 충실도를 향상시킨다. 이후 조건부 확산 디코딩 모듈에서 사전 학습된 확산 모델을 활용하여 콘텐츠 변수를 추가로 디코딩한다. 사전 학습된 확산 모델의 생성 능력을 보존하기 위해 모델 파라미터를 고정하고 제어 모듈을 통해 콘텐츠 정보를 주입한다. 또한 공간 정렬 손실 함수를 설계하여 잠재 특징 가이드 압축 모듈에 대한 강력한 제약 조건을 제공한다.
실험 결과, 제안 방법은 시각적 성능과 이미지 충실도 측면에서 모두 최신 기법을 능가하는 것으로 나타났다.
Statistik
극도의 낮은 비트율(0.1 bpp 미만)에서도 우수한 복원 성능을 보임
제안 방법은 기존 최신 기법 대비 Kodak 데이터셋에서 87.03%, Tecnick 데이터셋에서 78.70%, CLIC2020 데이터셋에서 82.07%의 비트율 절감 효과를 달성
Citat
"To the best of our knowledge, we propose the first extreme image compression framework that combines compressive VAEs with pre-trained text-to-image diffusion models in an end-to-end manner."
"We develop a latent feature-guided compression module to adaptively select information essential for reconstruction. By introducing external guidance, we effectively improve reconstruction fidelity at extremely low bitrates."
"We propose a conditional diffusion decoding module that fully exploits the powerful diffusion prior contained in the well-trained stable diffusion to facilitate extreme image compression and improve realistic reconstruction."