Der Artikel präsentiert eine Methode zur Bildkompression, die auf Diffusionsmodellen basiert und einen privilegierten End-to-End-Decoder verwendet, um den Sampling-Prozess der Diffusionsmodelle zu korrigieren.
Zunächst wird theoretisch analysiert, wie der Schätzfehler der Score-Funktion, die in den Diffusionsmodellen verwendet wird, durch die Verwendung der Originalbilder als zusätzliche Information korrigiert werden kann. Basierend darauf wird ein End-to-End-Decoder eingeführt, der eine Approximation dieses Korrekturterms berechnet und nur wenige Bits zur Übertragung benötigt.
Die Experimente zeigen, dass die vorgeschlagene Methode sowohl bei Verzerrungsmaßen als auch bei Wahrnehmungsmaßen bessere Ergebnisse erzielt als vorherige Methoden zur wahrnehmungsorientierten Bildkompression. Die Ablationsstudien belegen die Effektivität des Ansatzes, die Diffusionsmodelle durch den privilegierten Decoder zu korrigieren.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yiyang Ma,We... lúc arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.04916.pdfYêu cầu sâu hơn