核心概念
本手法は、複数の人物の単眼動画から単一の動的NeRFを学習する。アイデンティティ固有の情報と非アイデンティティ固有の情報の非線形な相互作用をモデル化するための乗算モジュールを提案する。
要約
本研究では、MI-NeRF (multi-identity NeRF)と呼ばれる手法を提案している。MI-NeRFは、複数の人物の単眼動画から単一の動的NeRFを学習する。
まず、各動画フレームから3DMM fitting手法を用いて、頭部姿勢と表情パラメータを抽出する。さらに、アイデンティティ固有の情報と時間変動の情報をそれぞれ表すための潜在ベクトルを学習する。
次に、アイデンティティ固有の情報と非アイデンティティ固有の情報の非線形な相互作用をモデル化するための乗算モジュールを提案する。このモジュールは、ハダマード積を用いて、表情ベクトルとアイデンティティベクトルの非線形な相関を学習する。
学習した単一のNeRFモデルは、任意の入力アイデンティティに対して、高品質な動画合成を可能にする。さらに、少量の動画を用いて、特定のアイデンティティに対してパーソナライズすることで、より高品質な結果が得られる。
提案手法は、従来の単一アイデンティティのNeRFと比較して、学習時間を90%削減できる。また、従来手法と比べて、未知の表情に対してもロバストな合成結果が得られる。
統計
単一のNeRFモデルを学習するのに必要な時間は、従来手法の10%程度である。
提案手法は、未知の表情に対してもロバストな合成結果を生成できる。