Effiziente Verarbeitung und Analyse von Inhalten zur Gewinnung von Erkenntnissen: Ein text-gesteuerter Ansatz zur visuellen Lokalisierung von Schallquellen in Mischungen
Der Kerngedanke dieses Artikels ist es, die Textmodaliät als Zwischenschritt zu nutzen, um die feinkörnige audio-visuelle Korrespondenz in Mehrquellenmischungen zu entflechten und so die visuelle Lokalisierung von Schallquellen zu verbessern.