本論文は、ビデオ超解像(VSR)の2つの主要な課題、すなわち時間的整合性の維持と高周波の詳細の生成に取り組んでいる。
まず、大規模な画像超解像モデルであるGigaGANをビデオ超解像に適用する際の課題を特定している。単純にGigaGANにテンポラルモジュールを追加しただけでは、深刻な時間的ちらつきが発生することがわかった。
そこで以下の3つの手法を提案している:
光流れに基づくフィーチャー伝播モジュール: 異なるフレーム間の特徴を光流れに基づいて整合させることで、時間的整合性を向上させる。
アンチエイリアシングブロック: ダウンサンプリング時のエイリアシングを抑制することで、時間的ちらつきを軽減する。
ハイフリークエンシーシャトル: 高周波の特徴を直接デコーダに注入することで、高周波の詳細を維持しつつ時間的整合性も保つ。
これらの手法を組み合わせたVideoGigaGANは、従来のVSRモデルと比べて、時間的整合性と高周波の詳細の両立を実現している。定量的・定性的な評価から、VideoGigaGANの有効性が示されている。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yiran Xu,Tae... at arxiv.org 04-19-2024
https://arxiv.org/pdf/2404.12388.pdfDeeper Inquiries