Core Concepts
ステレオ画像の圧縮において、Transformerエントロピー・モデルを活用することで、空間的な相関を効果的に捉えることが重要である。
Abstract
1. 導入
ステレオ画像コーデック(SIC)は、同じカメラによって異なる視点からキャプチャされた一対の立体画像を圧縮する。
学習ベースのステレオ画像コーデックは、単一画像コーデックから派生したシンプルなエントロピー・モデルを採用している。
本論文では、ステレオ画像圧縮フレームワーク「CAMSIC」を提案し、新しい内容に注意したマスク画像モデリング(MIM)技術を導入している。
2. 過去の研究
従来の多視点画像コーデック標準は、予測符号化パラダイムに根ざし、現在のビューを圧縮するためにピクセルまたは特徴空間での差分補償予測を使用してきた。
最近の学習ベースのステレオ画像圧縮手法は、従来よりも高い圧縮効率を達成している。
3. メソッド
CAMSICフレームワークは、強力なTransformerエントロピー・モデルに焦点を当てており、各画像を個別に変換するシンプルなエンコーダー・デコーダーアーキテクチャから構成されている。
新しい内容に注意したMIM技術が導入されており、事前情報と推定トークンとの効率的な双方向インタラクションが可能となっている。
4. 実験結果
CAMSICアプローチはCityscapesおよびInStereo2Kデータセットで最先端の圧縮性能を達成し、高速なエンコードとデコード速度も実現している。
提案手法はECSIC方法よりもPSNRで約8.512%〜0.629%ビット削減率を達成しており、他の学習ベースコーデックよりも優れたトレードオフ性能が示されている。
Quotes
"Our content-aware MIM facilitates efficient bidirectional interaction between prior information and estimated tokens."
"Experiments show that our stereo image codec achieves state-of-the-art rate-distortion performance on two stereo image datasets Cityscapes and InStereo2K with fast encoding and decoding speed."