Core Concepts
Ein leistungsfähiges Transformer-Entropiemodell, das sowohl räumliche als auch Disparitätsabhängigkeiten effektiv erfasst, ermöglicht eine effiziente Stereo-Bildkompression.
Abstract
Die Autoren präsentieren ein Stereo-Bildkompressionsframework namens CAMSIC, das auf einem leistungsfähigen Transformer-Entropiemodell basiert. Im Gegensatz zu herkömmlichen Ansätzen, die sich auf komplexe Transformationen und Informationsflüsse konzentrieren, fokussiert sich CAMSIC auf die Entwicklung eines überlegenen räumlich-disparitätsbezogenen Entropiemodells.
Kernpunkte:
- CAMSIC verwendet einen einfachen Bild-Encoder-Decoder, um die Latenzrepräsentationen für jede Ansicht zu extrahieren.
- Anstatt die üblichen uninformativen [MASK]-Token zu verwenden, führen die Autoren neuartige inhaltsgesteuerte Token ein, um eine effizientere bidirektionale Interaktion zwischen Priorinformationen und geschätzten Token zu ermöglichen.
- Durch diese Verbesserung können die Autoren eine effiziente, dekoderfreie Transformer-Entropiemodellarchitektur entwickeln, die die Leistungsfähigkeit des Transformer-Modells optimal nutzt.
- Die Experimente zeigen, dass CAMSIC den aktuellen Stand der Technik bei der Stereo-Bildkompression übertrifft und gleichzeitig eine schnellere Kodierung und Dekodierung bietet.
Stats
Unsere Methode erzielt 8,512% und 0,629% Bitrateneinsparungen im Vergleich zur aktuellen Bestmethode ECSIC in Bezug auf PSNR auf den Datensätzen Cityscapes und InStereo2K.
Im Vergleich zum neuesten verteilten Codec LDMIC, der auf einem globalen Kreuzaufmerksamkeitsmechanismus basiert, verbessert unsere Methode den PSNR-Wert um etwa 0,387 dB und 0,195 dB bei gleicher Bitrate auf den beiden Datensätzen.
Quotes
"Unsere content-aware MIM ermöglicht eine effizientere und umfassendere Interaktion zwischen Priorinformationen und geschätzten Token, während sie auch die Entwicklung eines effizienten, aber leistungsfähigen dekoderfreien Transformer-Entropiemodells erleichtert."
"Experimente zeigen, dass unser vorgeschlagenes Verfahren mit geringerer Kodierungs- und Decodierlatenz die bestehenden lernbasierten Multi-View- und Stereo-Codecs deutlich übertrifft."