Ein neues Diffusionsmodell für die generalisierte audiovisuelle Saliency-Vorhersage (DiffSal) wird vorgestellt, das eine überlegene Leistung im Vergleich zu früheren State-of-the-Art-Methoden aufweist.
The author introduces DiffSal, a novel diffusion architecture for generalized audio-visual saliency prediction, utilizing input video and audio as conditions. The framework outperforms previous state-of-the-art methods across six challenging benchmarks.