Fehlertolerante Zielsprecherdetektion für Sprecheraktivität zur robusten Sprecherdiarisierung
Die vorgeschlagene PET-TSVAD-Methode ist robust gegenüber Fehlern in Sprecherprofilen, die typischerweise bei der ersten Durchlauf-Sprecherdiarisierung auftreten. Durch die Einführung von Pseudo-Sprecherprofilen und die Verwendung verschiedener Clustermethoden in der Trainingsphase kann PET-TSVAD die Leistung der herkömmlichen TS-VAD-Methoden auf den VoxConverse- und DIHARD-I-Datensätzen konsistent verbessern.