Die Studie untersucht den Einsatz von Selbstüberwachungsmodellen zur Verbesserung der automatischen Bewertung dysarthrischer Sprache. Die Autoren evaluieren die Leistung verschiedener Selbstüberwachungsmodelle wie HuBERT, wav2vec2 und Modified CPC im Vergleich zu herkömmlichen akustischen Merkmalen auf drei Klassifikationsaufgaben: Erkennung von Dysarthrie, Worterkennung und Verständlichkeitsklassifizierung. Die Experimente werden unter drei Umgebungsbedingungen durchgeführt: Standard, Rauschunterdrückung und Rauschzugabe.
Die Ergebnisse zeigen, dass die Selbstüberwachungsmodelle deutlich bessere Leistungen erzielen als die akustischen Merkmale. HuBERT erweist sich als vielseitigster Merkmalsextraktor und erzielt Genauigkeitsverbesserungen von 24,7% bei der Dysartrieerkennnung, 61% bei der Worterkennung und 7,2% bei der Verständlichkeitsklassifizierung im Vergleich zu den akustischen Merkmalen.
Die Autoren entwickeln außerdem ein Visualisierungstool, um die Vorhersagen auf Patientenebene zu untersuchen und so ein detaillierteres Verständnis der Bewertungsergebnisse zu ermöglichen. Dieses Werkzeug kann dabei helfen, Störfaktoren wie Rauschen in den Aufnahmen zu identifizieren und personalisierte Behandlungsansätze zu unterstützen.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문