Die Studie untersucht den Einsatz von vortrainierten Sprecherverifizierungsmodellen (SV) für die Identifizierung von Teilnehmern in klinischen Studien über verschiedene Sprachen hinweg. Dafür wurden drei SV-Modelle (SpeakerNet, TitaNet, ECAPA-TDNN) auf Sprachaufnahmen von Patienten mit kognitiven und psychischen Erkrankungen in Englisch, Deutsch, Dänisch, Spanisch und Arabisch getestet.
Die Ergebnisse zeigen, dass die Modelle in der Lage sind, Sprecher in europäischen Sprachen mit einer Equal Error Rate (EER) von unter 2,7% zu verifizieren. Für Arabisch liegt die EER bei 8,26%. Damit stellen die Modelle einen vielversprechenden Ansatz dar, um Mehrfachteilnahmen in klinischen Studien über verschiedene Sprachen hinweg zu erkennen, ohne zusätzlichen Aufwand für die Anpassung an einzelne Sprachen.
Darüber hinaus wurde untersucht, wie sich unterschiedliche Sprachaufgaben auf die Leistung der Modelle auswirken. Die Bilderbeschreibung zeigte dabei die besten Ergebnisse im Vergleich zu phonetischen und semantischen Wortflüssigkeitsaufgaben. Dies deutet darauf hin, dass die Art der Sprachaufgabe einen Einfluss auf die Leistung der Sprecherverifizierung haben kann.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問