Concepts de base
INRベースのビデオ圧縮手法において、ニューラル表現、量子化、エントロピーモデルを同時に最適化することで、従来手法を大幅に上回る圧縮性能を実現する。
Résumé
本論文は、ニューラルビデオ表現圧縮(NVRC)と呼ばれる新しいINRベースのビデオ圧縮フレームワークを提案している。従来のINRベースの手法は、ニューラル表現のアーキテクチャに焦点を当てていたが、単純な手法でモデル圧縮を行っていたため、最新の標準コーデックに及ばない性能しか発揮できていなかった。
NVRCでは、ニューラル表現、量子化、エントロピーモデルを同時に最適化することで、初めてINRベースのビデオコーデックを完全なエンドツーエンド最適化が可能にした。具体的には以下の取り組みを行っている:
- 特徴グリッドのエンコーディングにコンテキストベースのエントロピーモデルを適用し、空間-時間の相関を活用。
- ネットワークパラメータのエンコーディングに双軸条件付きガウスモデルを適用し、入出力チャンネル間の相関を活用。
- 量子化パラメータとエントロピーモデルパラメータも階層的に圧縮することで、オーバーヘッドを最小化。
- 歪みと圧縮率の最適化を交互に行う効率的な学習手順を採用。
実験の結果、NVRCはVVC VTMに対して平均24%のビットレート削減を達成し、従来のINRベースの手法に対しても大幅な性能向上を示した。これは、INRベースのビデオコーデックとしては初めてVVCを上回る成果である。
Stats
提案手法NVRC はVVC VTMに対して平均24%のビットレート削減を達成した。
NVRCはHiNeRVに対して平均50%のビットレート削減を達成した。
Citations
"INRベースのビデオ圧縮手法において、ニューラル表現、量子化、エントロピーモデルを同時に最適化することで、初めて完全なエンドツーエンド最適化が可能になった。"
"NVRCは、VVCに対して平均24%のビットレート削減を達成し、従来のINRベースの手法に対しても大幅な性能向上を示した。これは、INRベースのビデオコーデックとしては初めてVVCを上回る成果である。"