Core Concepts
Unser Verfahren zur verlustbehafteten Bildkompression nutzt Diffusionsmodelle auf Basis von Grundlagenmodellen, um realistische und detaillierte Rekonstruktionen bei sehr niedrigen Bitraten zu erzeugen.
Abstract
Unser Verfahren zur verlustbehafteten Bildkompression kombiniert einen variationalen Autoencoder mit einem Diffusionsmodell, um hochwertige Rekonstruktionen bei niedrigen Bitraten zu erzielen. Der Schlüssel dazu ist, dass wir den Quantisierungsfehler als Rauschen behandeln und das Diffusionsmodell nutzen, um die verlorenen Informationen im übertragenen Bildlatent wiederherzustellen.
Im Gegensatz zu früheren Arbeiten, die das gesamte iterative Diffusionsverfahren durchführen müssen, können wir den Prozess auf weniger als 10% der vollen Schritte reduzieren, ohne Änderungen am Diffusionsmodell vorzunehmen. Dadurch können wir Grundlagenmodelle als starke Priors nutzen, ohne zusätzliches feines Abstimmen.
Unsere Experimente zeigen, dass unser Verfahren in Metrik en zur Realismus-Bewertung den aktuellen Stand der Technik übertrifft, während es bei pixelweisen Verzerrungsmaßen mit den besten generativen Codecs konkurrenzfähig bleibt. Eine Nutzerstudie bestätigt, dass unsere Rekonstruktionen von den Nutzern subjektiv bevorzugt werden, selbst wenn andere Methoden die doppelte Bitrate verwenden.
Stats
Die Bitrate unseres Verfahrens beträgt etwa 0,1 Bit pro Pixel.
Unser Verfahren benötigt nur etwa 3,5 Sekunden pro Bild für Kodierung und Dekodierung, was fast doppelt so schnell ist wie der Vergleichsansatz.
Quotes
"Unser Verfahren kann hochrealistische und detaillierte Bildrekonstruktionen bei sehr niedrigen Bitraten erzeugen."
"Im Gegensatz zu früheren Arbeiten können wir den Diffusionsprozess auf weniger als 10% der vollen Schritte reduzieren, ohne Änderungen am Diffusionsmodell vorzunehmen."