この論文は、一枚のソースポートレート画像から話す頭部ビデオを合成する方法に焦点を当てています。通常、これらの方法は、新しいポーズの生成に向けて平面ベースのピクセル変換が必要です。本研究では、追加の超解像度モジュールなしで高品質なトーキングヘッドビデオを生成する方法を提案しています。具体的には、既存の超解像度手法に着想を得て、一枚のソース画像をダウンサンプリングし、エンコーダーデコーダーモジュールを介して高周波数詳細を適応的に再構築します。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Luchuan Song... alle arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.15944.pdfDomande più approfondite