Effiziente Verarbeitung und Analyse von Inhalten zur Gewinnung von Erkenntnissen: Zielsprachextraktion mit vortrainiertem AV-HuBERT und Mask-And-Recover-Strategie
Die Studie präsentiert ein effizientes Audio-Visuelle-Zielsprachextraktionssystem, das einen vortrainierten AV-HuBERT-Modell und eine neuartige Mask-And-Recover-Strategie nutzt, um die Leistung bei der Extraktion der Zielsprache aus Sprachmischungen zu verbessern.