Core Concepts
Durch die Aufnahme und Analyse von 29 Stunden, 16 Minuten und 40 Sekunden Audiomaterial von 107 Sprechern konnten sechs Sorani-Kurdisch-Subdialekte erfolgreich erkannt werden. Die Verwendung von RNN-LSTM-Modellen erzielte eine Genauigkeit von 96%, was die besten Ergebnisse im Vergleich zu ANN- und CNN-Modellen lieferte.
Abstract
Die Studie konzentrierte sich auf die Erkennung von sechs Sorani-Kurdisch-Subdialekten: Garmiani, Sulaimani, Khoshnawi, Karkuki, Hewleri und Pishdari. Dafür wurden 107 Interviews mit Muttersprachlern aus verschiedenen Altersgruppen, Geschlechtern, akademischen Hintergründen und Berufen durchgeführt. Das gesammelte Audiomaterial umfasste 29 Stunden, 16 Minuten und 40 Sekunden.
Zur Verarbeitung des Datensatzes wurden drei Deep-Learning-Modelle angewendet: ANN, CNN und RNN-LSTM. Die Experimente umfassten verschiedene Konfigurationen wie unterschiedliche Segmentlängen, Datensatzteilungen und Techniken zum Umgang mit unausgewogenen Datensätzen wie Oversampling und Undersampling. Insgesamt wurden 225 Experimente durchgeführt.
Die Ergebnisse zeigten, dass das RNN-LSTM-Modell mit einer Genauigkeit von 96% die anderen Methoden übertraf. Das CNN-Modell erreichte eine Genauigkeit von 93%, das ANN-Modell 75%. Alle drei Modelle erzielten bessere Leistungen, wenn sie auf ausgewogenen Datensätzen angewendet wurden, insbesondere bei Verwendung des Oversampling-Ansatzes.
Stats
Die Aufnahmen umfassen insgesamt 29 Stunden, 16 Minuten und 40 Sekunden.
Die Aufnahmen beinhalten Sprachaufnahmen von 107 Sprechern.
Die Aufnahmen decken sechs Sorani-Kurdisch-Subdialekte ab.
Quotes
Keine relevanten Zitate gefunden.