Context-aware Talking Face Video Generation: A Two-Stage Cross-Modal Control Pipeline
Die Studie präsentiert einen innovativen Ansatz für die Generierung von sprechenden Gesichtsvideos, der den Kontext berücksichtigt und eine effiziente Zwei-Stufen-Cross-Modal-Steuerungspipeline verwendet.