Style2Talkerは、音声駆動型の話し手を自動的にアニメーション化する革新的な方法であり、感情スタイルと芸術スタイルを統合した高解像度の話し手ビデオを生成します。この研究では、テキスト制御された感情スタイルと画像制御された芸術スタイルが組み込まれています。研究では、大規模な事前学習モデルを使用して感情テキストラベルを自動的に注釈付けし、音声と組み合わせて効率的な潜在拡散モデルを設計しています。さらに、3DMMモデルの感情運動係数や芸術特有のスタイリッシュな会話頭部ビデオを合成するために、StyleGANに多段階コンテンツ特徴量が提供されます。実験結果は、この手法が既存の最先端技術よりも優れたパフォーマンスを示すことを証明しています。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Shuai Tan,Bi... at arxiv.org 03-12-2024
https://arxiv.org/pdf/2403.06365.pdfDeeper Inquiries