Core Concepts
エンサンブルベースのデコーダを用いることで、中間表現の予測不確実性を効果的に捉えることができ、ビデオ圧縮性能を大幅に向上させることができる。
Abstract
本論文では、深層学習に基づくビデオ圧縮における中間表現の不確実性に着目し、それを効果的に捉えるためのエンサンブルベースのデコーダを提案している。
具体的には以下の通りである:
従来の深層学習ベースのビデオ圧縮モデルでは、中間表現である動きベクトルや残差の予測を決定論的に行っていたが、これらには不確実性が存在する。アレアトリック不確実性はデータ自体の雑音に起因し、エピステミック不確実性はモデルパラメータの不確実性に起因する。
提案手法では、エンサンブルベースのデコーダを導入することで、これらの不確実性を表現することができる。エンサンブルの各メンバーが異なる中間表現を出力し、その分散からモデルの予測不確実性を捉えることができる。
さらに、エンサンブルメンバー間の多様性を促進するためのエンサンブル認識損失関数を提案し、また敵対的訓練手法であるFGSMを導入することで、より滑らかな潜在表現を学習できるようにしている。
実験結果から、提案手法がDVC Proなどの従来手法に比べて20%以上のビットレート削減を実現できることを示している。また、可視化結果から、提案手法がアレアトリック不確実性とエピステミック不確実性を適切に捉えられることを確認している。
Stats
ビデオ圧縮性能を従来手法と比較した結果、HEVC Bデータセットで22.3%、HEVC Cで6.0%、HEVC Dで19.0%、HEVC Eで24.3%、UVGで25.5%、MCL-JCVで18.2%のビットレート削減を実現できた。
Quotes
"エンサンブルベースのデコーダを導入することで、中間表現の予測不確実性を効果的に表現できる。"
"エンサンブル認識損失関数を提案し、また敵対的訓練手法であるFGSMを導入することで、より滑らかな潜在表現を学習できるようにしている。"