核心概念
Die Studie präsentiert emoDARTS, eine DARTS-optimierte gemeinsame CNN- und sequenzielle neuronale Netzwerkarchitektur, die die Leistung der Spracherkennung von Emotionen verbessert.
要約
Die Studie untersucht den Einsatz der differenzierbaren Architektursuche (DARTS) zur Verbesserung der Spracherkennung von Emotionen (SER) durch eine gemeinsame Konfiguration eines Convolutional Neural Network (CNN) und eines Sequenziellen Neuronalen Netzwerks (SeqNN).
Im Gegensatz zu früheren Studien lässt die Methode DARTS die optimale Reihenfolge der Schichten im CNN-Netzwerk frei wählen, anstatt Einschränkungen vorzugeben. Die Leistung des vorgeschlagenen emoDARTS-Modells wird mit Basismodellen ohne DARTS sowie verschiedenen Genome-Operationen wie nur LSTM, nur LSTM mit Aufmerksamkeit, nur RNN und nur RNN mit Aufmerksamkeit verglichen.
Die Ergebnisse zeigen, dass emoDARTS die Leistung der Baseline-Modelle deutlich übertrifft und auch die besten bisher berichteten Ergebnisse für SER mit DARTS auf CNN-LSTM übertrifft. Darüber hinaus demonstriert die Studie die Übertragbarkeit des Ansatzes, indem er neben dem häufig verwendeten IEMOCAP-Datensatz auch die Datensätze MSP-IMPROV und MSP-Podcast einbezieht.
Abschließend werden Erkenntnisse zu Herausforderungen wie Grafikspeicherauslastung und Konvergenz zu lokalen Minima geteilt, die als praktische Anleitung für Forscher dienen können.
統計
Die Studie verwendet Mel-Frequenz-Cepstrum-Koeffizienten (MFCC) als Eingabemerkmale für die Modelle.
引用
Keine relevanten Zitate identifiziert.