核心概念
提案された周波数感知トランスフォーマー(FAT)ブロックは、LICにおける多様な周波数情報のモデリングに挑戦し、状態-of-the-artのレート-歪み性能を達成します。
要約
この論文では、画像圧縮における周波数分解の観点から新しいアプローチが提案されています。FDWAを導入することで異なる周波数成分を抽出する能力を持つことから、性能向上が実現されました。さらに、周波数変調フィードフォワードネットワーク(FMFFN)モジュールを導入して、異なる周波数成分を適応的に増幅または抑制し、R-Dトレードオフを改善します。さらに、チャンネルごとの自己回帰(T-CA)エントロピーモデルも開発されています。
INTRODUCTION
- Learned image compression (LIC) models have emerged as a promising solution to image storage and transmission.
- Existing LIC methods are redundant in latent representation due to limitations in capturing anisotropic frequency components and preserving directional details.
- The proposed Frequency-Aware Transformer (FAT) block achieves multiscale directional analysis for LIC.
RELATED WORK
- Transformers have achieved remarkable success in various computer vision tasks.
- Recent works incorporate transformers into learned image compression, showing superior efficiency compared to CNN-based methods.
METHODS
- The proposed FTIC model utilizes a Lagrangian multiplier-based R-D optimization approach.
- Frequency-Aware Transformer Block captures diverse frequency components efficiently.
EXPERIMENTS
- State-of-the-art performance is achieved on Kodak, Tecnick, and CLIC datasets.
- BD-rate improvement over VTM-12.1 by 14.5%, 15.1%, and 13.0% on respective datasets.
統計
Experiments show that our method achieves state-of-the-art rate-distortion performance compared to existing LIC methods, and evidently outperforms latest standardized codec VTM-12.1 by 14.5%, 15.1%, 13.0% in BD-rate on the Kodak, Tecnick, and CLIC datasets.