Konsep Inti
本手法は、感情カテゴリーと強度を細かく制御できる新しい音声駆動型ポートレートアニメーション生成手法を提案する。FLAME 3Dモデルの表情モデリングの線形性を利用し、DECA手法で抽出した表情ベクトルを条件として、拡散モデルを用いて、精確な口パク同期と豊かな感情表現を持つビデオを生成する。
Abstrak
本論文は、音声駆動型ポートレートアニメーションの課題に取り組んでいる。従来の手法は主に口パク同期や映像品質に焦点を当てていたが、感情表現の生成は十分に扱われていなかった。感情表現の制御と編集は、表情豊かで現実的なアニメーションを生成するために不可欠である。
本手法は、EMOdiffheadと呼ばれ、以下の特徴を持つ:
- FLAMEモデルの線形な表情モデリングを利用し、DECA手法で抽出した表情ベクトルを条件として使用する。これにより、感情カテゴリーと強度を細かく制御できる。
- 拡散モデルを用いて、精確な口パク同期と豊かな感情表現を持つビデオを生成する。
- 感情関連のデータが少ない問題を解決するため、感情関連でないデータからも感情情報を効果的に学習できる。
具体的な手順は以下の通り:
- DECA手法を用いて、入力ビデオから表情ベクトルを抽出する。
- 表情ベクトルと音声を条件として、拡散モデルを用いてビデオを生成する。同一アイデンティティの維持のため、ReferenceNetを導入する。
- 感情ベクトル生成器を用いて、任意の感情カテゴリーと強度のベクトルを生成する。これを拡散モデルの条件として使用することで、目的の感情表現を持つビデオを生成できる。
実験の結果、提案手法は感情表現の制御性、映像品質、口パク同期の面で優れた性能を示した。
Statistik
感情表現の強度を連続的に変化させることで、表情ベクトルの差分も線形に変化する。
提案手法は感情分類精度(EmoAcc)が0.477と高く、感情表現の線形性(FLIE)も2.104と優れている。
Kutipan
感情表現の制御と編集は、表情豊かで現実的なアニメーションを生成するために不可欠である。
FLAMEモデルの線形な表情モデリングを利用することで、感情カテゴリーと強度を細かく制御できる。
感情関連でないデータからも感情情報を効果的に学習できる。