DiffSal proposes a novel diffusion architecture for generalized audio-visual saliency prediction, achieving superior performance across challenging benchmarks.
Ein neues Diffusionsmodell für die generalisierte audiovisuelle Saliency-Vorhersage (DiffSal) wird vorgestellt, das eine überlegene Leistung im Vergleich zu früheren State-of-the-Art-Methoden aufweist.