Core Concepts
Der nEMO-Datensatz ist ein neuer Korpus für emotionale Sprachaufnahmen auf Polnisch, der über 3 Stunden an Sprachproben von 9 Schauspielern in 6 verschiedenen Emotionen umfasst. Der Datensatz wurde sorgfältig entwickelt, um die Phonetik der polnischen Sprache adäquat abzubilden, und ist unter einer Creative Commons-Lizenz frei verfügbar.
Abstract
Der nEMO-Datensatz wurde entwickelt, um die Lücke an Ressourcen für die Sprachemotion-Erkennung in der polnischen Sprache zu schließen. Der Datensatz verwendet einen simulierten Ansatz, bei dem 9 Schauspieler (4 Frauen, 5 Männer) 90 Sätze in 6 verschiedenen Emotionen (Ärger, Angst, Freude, Traurigkeit, Überraschung, neutral) aufgenommen haben. Die Sätze wurden sorgfältig ausgewählt, um die Phonetik des Polnischen adäquat abzubilden.
Die Aufnahmen wurden in einer häuslichen Umgebung mit professioneller Ausrüstung durchgeführt und anschließend manuell evaluiert, um nur authentische Emotionsausdrücke einzuschließen. Der finale Datensatz umfasst 4.481 Audioaufnahmen mit einer Gesamtlänge von über 3 Stunden.
Zur Evaluierung des Datensatzes wurden drei Klassifikationsmodelle (SVM, logistische Regression, Random Forest) auf Basis von MFCC-Merkmalen getestet. Die Ergebnisse zeigen eine zufriedenstellende Leistung, insbesondere für den Random Forest-Klassifikator mit einer Genauigkeit von 83,95%. Die Evaluierung bestätigt die Eignung des nEMO-Datensatzes für die Sprachemotion-Erkennung auf Polnisch.
Der nEMO-Datensatz ist unter einer Creative Commons-Lizenz (CC BY-NC-SA 4.0) frei verfügbar, um die Forschung und Entwicklung auf dem Gebiet der Sprachemotion-Erkennung zu fördern.
Stats
Die Länge der Audioaufnahmen beträgt im Durchschnitt 2,47 Sekunden.
Die Gesamtlänge des Datensatzes beträgt über 3 Stunden.
Der Datensatz enthält 4.481 Audioaufnahmen.
Quotes
"Der nEMO-Datensatz ist ein wichtiger Beitrag, um die Lücke an Ressourcen für die Sprachemotion-Erkennung in der polnischen Sprache zu schließen."
"Die zufriedenstellende Leistung der Klassifikationsmodelle bestätigt die Eignung des nEMO-Datensatzes für die Forschung und Entwicklung auf dem Gebiet der Sprachemotion-Erkennung."