핵심 개념
高解像度の話し手生成における感情スタイルと芸術スタイルの重要性を強調する革新的な方法。
초록
Style2Talkerは、音声駆動型の話し手を自動的にアニメーション化する革新的な方法であり、感情スタイルと芸術スタイルを統合した高解像度の話し手ビデオを生成します。この研究では、テキスト制御された感情スタイルと画像制御された芸術スタイルが組み込まれています。研究では、大規模な事前学習モデルを使用して感情テキストラベルを自動的に注釈付けし、音声と組み合わせて効率的な潜在拡散モデルを設計しています。さらに、3DMMモデルの感情運動係数や芸術特有のスタイリッシュな会話頭部ビデオを合成するために、StyleGANに多段階コンテンツ特徴量が提供されます。実験結果は、この手法が既存の最先端技術よりも優れたパフォーマンスを示すことを証明しています。
통계
Style2Talkerは他の最先端技術よりもSSIMやFIDで優れたパフォーマンスを示す。
Style2TalkerはMEADおよびHDTFデータセットで他の方法よりも同期性が高い。
Style2Talkerは他のSOTA方法と比較して口元同期や芸術スタイル転送で優れた結果を達成している。
인용구
"Although automatically animating audio-driven talking heads has recently received growing interest, previous efforts have mainly concentrated on achieving lip synchronization with the audio, neglecting two crucial elements for generating expressive videos: emotion style and art style."
"Our method outperforms existing state-of-the-art methods in terms of audio-lip synchronization and performance of both emotion style and art style."