Die Studie präsentiert RobustDistiller, ein neuartiges Wissensübertragungsverfahren, das zwei Hauptmodifikationen einführt, um die Robustheit komprimierter Sprachrepräsentationsmodelle zu verbessern:
Feature-Denoising-Wissensübertragung: Während der Destillation wird das Studentenmodell trainiert, die sauberen Darstellungen des Lehrermodells zu rekonstruieren, wobei es verrauschte Eingaben erhält. Dadurch soll das Studentenmodell rauscharme Merkmale lernen.
Multi-Task-Lernen: Zusätzlich zur Destillation wird das Studentenmodell auch trainiert, das Eingabesignal aus seinen Darstellungen zu rekonstruieren oder eine Binärmaske zur Verbesserung des verrauschten Signals zu schätzen. Dieser Ansatz soll dem Modell helfen, robustere Merkmale zu lernen.
Die Autoren zeigen, dass das RobustDistiller-Rezept auf verschiedene Lehrermodelle (Wav2Vec 2.0, HuBERT, WavLM, Robust HuBERT) angewendet werden kann und die Leistung der komprimierten Studentenmodelle in verrauschten Umgebungen deutlich verbessert, ohne die Leistung in sauberen Szenarien zu beeinträchtigen. Darüber hinaus kann das Rezept auch auf andere Kompressionsverfahren wie DPWavLM angewendet werden.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Heit... às arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.08654.pdfPerguntas Mais Profundas