この論文では、高品質で多様な話す顔を生成する新しいパラダイム「Listening and Imagining」を提案しています。Progressive Audio DisentanglementとControllable Coherent Frame Generationの2つの重要な課題に焦点を当てており、それぞれが高品質でコントロール可能なアニメーションを生成するための手法を提供しています。実験結果は、このアプローチの柔軟性と効果を示しています。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Chao Xu,Yang... at arxiv.org 03-05-2024
https://arxiv.org/pdf/2403.01901.pdfDeeper Inquiries