Die vorgeschlagene Frequenzbasierte Transformer-Architektur (FAT) erfasst multiskalige und richtungsabhängige Frequenzkomponenten natürlicher Bilder, um eine kompaktere Darstellung der Bildinformationen zu ermöglichen und so die Leistung der lernbasierten Bildkompression zu verbessern.
Unser Modell PerCo nutzt einen diffusionsbasierten Decoder, der mit einer vektorquantisierten Darstellung des Eingabebilds sowie einer textbasierten globalen Bildbeschreibung konditioniert wird, um realistische Bildrekonstruktionen bei extrem niedrigen Bitraten zu erzielen.
Die Studie präsentiert eine neue Verlustfunktion und eine neuartige subjektive Bewertungsmethodik, um die Bildtreue lernbasierter Bildkompressionsverfahren zu optimieren und zu bewerten.
EGIC ist eine neuartige generative Bildkompressionsmetho-de, die es ermöglicht, die Verzerrungs-Wahrnehmungs-Kurve effizient von einem einzigen Modell aus zu durchlaufen. EGIC basiert auf zwei neuartigen Bausteinen: i) OASIS-C, einem bedingten, vortrainierten semantischen Segmentierungs-gesteuerten Diskriminator, der sowohl räumlich als auch semantisch bewusste Gradientenrückmeldungen an den Generator liefert, bedingt durch die latente Bildverteilung, und ii) Output Residual Prediction (ORP), eine leichtgewichtige Nachrüstlösung für die Mehrfach-Realismus-Bildkompression, die es ermöglicht, den Einfluss des Residuums zwischen einem MSE-optimierten und einem GAN-optimierten Decoder-Ausgang auf die GAN-basierte Rekonstruktion zu steuern.
Ein leistungsfähiges Transformer-Entropiemodell, das sowohl räumliche als auch Disparitätsabhängigkeiten effektiv erfasst, ermöglicht eine effiziente Stereo-Bildkompression.
Durch das Lernen einer Abbildung im latenten Raum kann die Bildqualität komprimierter dunkler Bilder deutlich verbessert werden, ohne dass Kompressionsartefakte verstärkt werden.