Core Concepts
Selbstüberwachtes Vortraining kann die Robustheit von Keyword-Erkennungsmodellen gegenüber Rauschen deutlich verbessern, insbesondere wenn das Vortraining auf verrauschten Daten erfolgt.
Abstract
Die Studie untersucht, wie selbstüberwachtes Vortraining die Robustheit von Keyword-Erkennungsmodellen (KWS) gegenüber Rauschen verbessern kann. Dafür werden drei verschiedene KWS-Modelle unterschiedlicher Größe verwendet, die zunächst mit dem Data2Vec-Verfahren auf ungelabelten Daten vortrainiert und anschließend auf einem kleineren gelabelten Datensatz feinabgestimmt werden. Die Ergebnisse zeigen:
- Vortraining und Feinabstimmung auf sauberen Daten führen zu höherer Genauigkeit als rein überwachtes Training auf sauberen Daten in allen Testbedingungen.
- Bei einem Signal-Rausch-Verhältnis (SNR) über 5 dB übertrifft das Vortraining auf sauberen Daten und anschließende Feinabstimmung das überwachte Training mit Multistil-Training (MTR) sowohl für bekannte als auch unbekannte Rauschtypen.
- Die Verwendung von verrauschten Daten für den Schüler und sauberen Daten für den Lehrer beim Data2Vec-Vortraining (Data2Vec-Denoising) ergibt die besten Modelle in verrauschten Bedingungen, bei nur geringfügig schlechterer Leistung in sauberen Bedingungen im Vergleich zu Modellen, die auf sauberen Daten vortrainiert wurden.
- Die Verbesserung der Robustheit ist über die verschiedenen Modellgrößen hinweg konsistent.
Stats
Bei einem Signal-Rausch-Verhältnis (SNR) von -10 dB erreichen die Modelle eine Genauigkeit zwischen 13,3 % und 31,0 %.
Bei einem SNR von 20 dB erreichen die Modelle eine Genauigkeit zwischen 76,9 % und 86,8 %.
In sauberen Bedingungen erreichen die Modelle eine Genauigkeit zwischen 80,0 % und 88,7 %.
Quotes
"Vortraining und Feinabstimmung auf sauberen Daten führen zu höherer Genauigkeit als rein überwachtes Training auf sauberen Daten in allen Testbedingungen."
"Bei einem Signal-Rausch-Verhältnis (SNR) über 5 dB übertrifft das Vortraining auf sauberen Daten und anschließende Feinabstimmung das überwachte Training mit Multistil-Training (MTR) sowohl für bekannte als auch unbekannte Rauschtypen."
"Die Verwendung von verrauschten Daten für den Schüler und sauberen Daten für den Lehrer beim Data2Vec-Vortraining (Data2Vec-Denoising) ergibt die besten Modelle in verrauschten Bedingungen, bei nur geringfügig schlechterer Leistung in sauberen Bedingungen im Vergleich zu Modellen, die auf sauberen Daten vortrainiert wurden."