Kernekoncepter
追加の事前学習モジュールを使用せずに、高解像度のビデオを合成するための適応型方法を提案します。
Resumé
この論文は、一枚のソースポートレート画像から話す頭部ビデオを合成する方法に焦点を当てています。通常、これらの方法は、新しいポーズの生成に向けて平面ベースのピクセル変換が必要です。本研究では、追加の超解像度モジュールなしで高品質なトーキングヘッドビデオを生成する方法を提案しています。具体的には、既存の超解像度手法に着想を得て、一枚のソース画像をダウンサンプリングし、エンコーダーデコーダーモジュールを介して高周波数詳細を適応的に再構築します。
1. 導入
- トーキングヘッド合成技術が進歩している。
- グラフィックスベースのニューラルレンダリング手法と純粋なニューラルレンダリング手法が存在。
- 純粋なニューラルレンダリング手法は幅広く利用可能であり、微調整なしで駆動映像を取得できる。
2. 適応型高周波数エンコーダー
- 高周波数エンコーダーEは低品質画像から高周波数詳細をキャプチャするために設計されている。
- Eは低品質画像から高品質画像への変換プロセスで重要な役割を果たす。
3. モーション推定
- モーション推定モジュールは密な動きフィールドDを計算し、特定フレームとソースフレームIsを整列させます。
- マッピング関数TIs←D(R2→R2)は各ピクセルDとその対応位置Isと相関付けます。
4. 実験結果
- 大規模データセット上で我々の手法が既存手法よりも優れた性能を発揮したことが示されました。
- 複数の損失関数が使用されました:顔構造損失、等価性損失、知覚的損失、GAN損失。
5. 結論
- 提案手法は追加事前学習モジュールや後処理なしで高品質ビデオ合成が可能です。
Statistik
この論文では重要な数字やメトリクスは含まれていません。
Citater
この論文から引用されたストライキングな引用文はありません。