この論文では、高品質で多様な話す顔を生成する新しいパラダイム「Listening and Imagining」を提案しています。Progressive Audio DisentanglementとControllable Coherent Frame Generationの2つの重要な課題に焦点を当てており、それぞれが高品質でコントロール可能なアニメーションを生成するための手法を提供しています。実験結果は、このアプローチの柔軟性と効果を示しています。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Chao Xu,Yang... om arxiv.org 03-05-2024
https://arxiv.org/pdf/2403.01901.pdfDiepere vragen