本論文では、ビデオデータの高次元性に起因する課題に取り組むため、ニューラルネットワークを用いた暗黙的ビデオ表現の高速エンコーディングおよびデコーディング手法を提案している。
まず、NeRV-Encと呼ばれるトランスフォーマーベースのハイパーネットワークを導入し、ビデオ固有の重みを直接生成することで、従来のグラジエントベースの最適化手法に比べて104倍高速にビデオをエンコーディングできることを示している。
次に、NeRV-Decと呼ばれる並列デコーダを提案し、従来のビデオコーデックよりも11倍高速にビデオをデコーディングできることを示している。さらに、NeRV-Decは前デコード済みのビデオをRAMから読み込むよりも2.5倍高速で、ディスク容量も65倍小さくなることを示している。
これらの手法により、ビデオデータの高速エンコーディングおよびデコーディングが可能となり、ビデオ圧縮やビデオ強化などのアプリケーションに活用できる。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Hao Chen, Sa... klokken arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19429.pdfDypere Spørsmål