本論文では、ビデオデータの高次元性に起因する課題に取り組むため、ニューラルネットワークを用いた暗黙的ビデオ表現の高速エンコーディングおよびデコーディング手法を提案している。
まず、NeRV-Encと呼ばれるトランスフォーマーベースのハイパーネットワークを導入し、ビデオ固有の重みを直接生成することで、従来のグラジエントベースの最適化手法に比べて104倍高速にビデオをエンコーディングできることを示している。
次に、NeRV-Decと呼ばれる並列デコーダを提案し、従来のビデオコーデックよりも11倍高速にビデオをデコーディングできることを示している。さらに、NeRV-Decは前デコード済みのビデオをRAMから読み込むよりも2.5倍高速で、ディスク容量も65倍小さくなることを示している。
これらの手法により、ビデオデータの高速エンコーディングおよびデコーディングが可能となり、ビデオ圧縮やビデオ強化などのアプリケーションに活用できる。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы