Robuste Erkennung aktiver Sprecher in geräuschvollen Umgebungen
Ein neuartiges Rahmenwerk zur robusten Erkennung aktiver Sprecher in geräuschvollen Umgebungen, das eine audio-visuelle Sprachentrennung als Anleitung nutzt, um geräuschfreie Audiofeatures zu lernen.