Alapfogalmak
提案手法ERLNetは、NeRFを用いて、オーディオ入力に応じた高品質なスタイル制御可能な動画ポートレートを生成する。
Kivonat
本研究では、Embedded Representation Learning Network (ERLNet)と呼ばれる新しい手法を提案している。ERLNetは、NeRFを用いて、オーディオ入力に応じた高品質なスタイル制御可能な動画ポートレートを生成する。
具体的には以下の2つのステージから構成される:
Audio Driven FLAME (ADF) モジュール:
音声とスタイル参照動画から、表情と頭部姿勢の潜在表現を学習する。
音声に同期した表情と頭部姿勢のFLAME係数系列を生成する。
Dual-Branch Fusion NeRF (DBF-NeRF):
頭部と体幹の動きの違いを考慮して、2つのNeRFを融合することで、より自然な動画を生成する。
FLAME係数をNeRFの入力条件として利用することで、表情と頭部姿勢を精密に制御できる。
さらに、長時間のスタイル付き動画ポートレートデータセット(LDST)を新たに構築した。LDSTには、5種類の異なる表情と頭部姿勢を含む動画セグメントが含まれている。
提案手法ERLNetは、既存手法と比較して、より高品質な動画ポートレートを生成できることが実験的に示された。
Statisztikák
音声とスタイル参照動画から、表情と頭部姿勢のFLAME係数系列を生成できる。
頭部と体幹の動きの違いを考慮することで、ネック領域の不自然な変形を抑制できる。
長時間のスタイル付き動画ポートレートデータセット(LDST)を新たに構築した。
Idézetek
"提案手法ERLNetは、NeRFを用いて、オーディオ入力に応じた高品質なスタイル制御可能な動画ポートレートを生成する。"
"ERLNetは、表情と頭部姿勢の潜在表現を学習し、音声に同期した FLAME係数系列を生成する。"
"DBF-NeRFは、頭部と体幹の動きの違いを考慮することで、ネック領域の不自然な変形を抑制できる。"