Ein neuer Ansatz zur Generierung von Audio, das mit Videoinhalten synchronisiert ist, indem visuelle Informationen als Bedingung für latente Diffusionsmodelle verwendet werden.