본 연구는 극도의 낮은 비트율(0.1 bpp 미만)에서 이미지를 압축하는 문제를 다룬다. 기존 극도 이미지 압축 방법들은 심각한 압축 아티팩트 또는 낮은 충실도 복원 결과를 보였다. 이를 해결하기 위해 본 연구는 압축 VAE와 사전 학습된 텍스트-이미지 확산 모델을 결합한 새로운 극도 이미지 압축 프레임워크를 제안한다.
구체적으로, 제안하는 잠재 특징 가이드 압축 모듈은 압축 VAE 기반으로 이미지를 압축하고 초기에 압축 정보를 콘텐츠 변수로 디코딩한다. 외부 가이드를 활용하여 중간 특징 맵을 동적으로 조절함으로써 복원 충실도를 향상시킨다. 이후 조건부 확산 디코딩 모듈에서 사전 학습된 확산 모델을 활용하여 콘텐츠 변수를 추가로 디코딩한다. 사전 학습된 확산 모델의 생성 능력을 보존하기 위해 모델 파라미터를 고정하고 제어 모듈을 통해 콘텐츠 정보를 주입한다. 또한 공간 정렬 손실 함수를 설계하여 잠재 특징 가이드 압축 모듈에 대한 강력한 제약 조건을 제공한다.
실험 결과, 제안 방법은 시각적 성능과 이미지 충실도 측면에서 모두 최신 기법을 능가하는 것으로 나타났다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Zhiyuan Li,Y... alle arxiv.org 04-30-2024
https://arxiv.org/pdf/2404.18820.pdfDomande più approfondite