核心概念
AnimatableDreamerは、モノラルビデオから抽出したスケルトンに基づいて、テキストプロンプトから多様なカテゴリの非剛体オブジェクトを生成する。その中核となる正準スコア蒸留は、時間的整合性と変形ロバスト性を備えた4Dモデルの生成を可能にする。
要約
AnimatableDreamerは、モノラルビデオから非剛体オブジェクトのスケルトン、ボーン、スキニングを抽出し、それらを利用してテキストプロンプトに基づいて4Dモデルを生成する。
まず、モノラルビデオからNeuSモデルを用いて正準的な3Dモデルを再構築する。その際、ボーンとスキニングも同時に抽出される。次に、抽出したスケルトンを用いて、正準スコア蒸留(CSD)を通じて4Dモデルを生成する。CSDは、正準モデルと変形モデルの両方を最適化することで、時間的整合性と変形ロバスト性を実現する。具体的には、正準モデルの生成と変形の最適化の2つの項からなる。
正準モデルの生成項は、正準空間における3Dモデルの生成を担う。一方、変形の最適化項は、変形パラメータを最適化することで、変形後のモデルの整合性を高める。これにより、CSDは正準モデルと変形モデルの両立を図り、時間的に整合性のある高品質な4Dモデルを生成できる。
さらに、抽出したスケルトンを用いて、ボーンの位置と姿勢の制約を設けることで、生成プロセスの収束性を高めている。
統計
非剛体オブジェクトの正準表現には、3次元位置、色、符号付き距離関数、特徴記述子の4つの要素が含まれる。
ボーンの変換は、デュアル四元数ブレンドスキニングを用いて表現される。
ボーンとスキニングの関係は、セマンティックな相関と形態的な相関の2つの指標で定義される。