Core Concepts
Durch die Kombination von MSE-basierten Modellen und generativen Modellen unter Verwendung von Regionen von Interesse (ROI) sowie einer adaptiven Quantisierung können wir die Rekonstruktion von Gesichtern und Text bei sehr niedrigen Bitraten deutlich verbessern.
Abstract
Die Autoren präsentieren eine Methode zur hochauflösenden Bildkompression, die die Vorteile von MSE-basierten Modellen und generativen Modellen nutzt. Dafür verwenden sie eine hierarchische ROI-Detektion (H-ROI), um das Bild in Vorder- und Hintergrundbereiche aufzuteilen. Für die Vordergrundbereiche mit Gesichtern und Text wird eine MSE-Verlustfunktion verwendet, während für den Hintergrund GAN-basierte Verluste zum Einsatz kommen. Zusätzlich führen die Autoren eine adaptive Quantisierung ein, die den Bitrate-Distortion-Kompromiss weiter verbessert.
Die Experimente zeigen, dass die Methode eine deutlich höhere visuelle Qualität bei sehr niedrigen Bitraten erreicht als vergleichbare Verfahren wie BPG und HiFiC. Insbesondere die Rekonstruktion von kleinen Gesichtern und Text wird stark verbessert.
Stats
Bei einem Bitrate von 0,2275 bpp erreicht unsere Methode eine PSNR von 27,8794, eine MS-SSIM von 0,9362 und eine LPIPS von 0,2028 auf dem Kodak-Datensatz.
Bei einem Bitrate von 0,1486 bpp erreicht unsere Methode eine PSNR von 28,5015, eine MS-SSIM von 0,9510 und eine LPIPS von 0,2127 auf dem CLIC2022-Testdatensatz.
Bei einem Bitrate von 0,1951 bpp erreicht unsere Methode eine PSNR von 27,6499, eine MS-SSIM von 0,9564 und eine LPIPS von 0,2047 auf einem Teilsatz des CrowdHuman-Testdatensatzes.
Quotes
"Unsere Methode zeigt eine höhere Treue für Gesichter und Text auf dem Boot bei einer geringeren bpp."
"Wir können den extrem niedrigen Bitrate und die hohe visuelle Qualität ausbalancieren, indem wir die Rekonstruktion von Gesichtern und Text im Vordergrund deutlich verbessern, insbesondere für kleine Gesichter und Text."