Belangrijkste concepten
Das vorgeschlagene MSAC-SERNet-Modell kann sowohl einzelne Korpora als auch Kreuzkorpora für die Sprachemotion-Erkennung effektiv verarbeiten, indem es die Beziehungen zwischen verschiedenen Sprachattributen präzise modelliert und steuert, um diskriminative emotionsbezogene Merkmale zu extrahieren und die Zuverlässigkeit des Modells zu verbessern.
Samenvatting
Die Studie führt eine neuartige einheitliche Rahmenarchitektur für die Sprachemotion-Erkennung namens MSAC-SERNet ein. Im Gegensatz zu bestehenden Ansätzen, die sich hauptsächlich auf die Erkennungs- und Verallgemeinerungsfähigkeit konzentrieren, untersucht diese Studie auch die Zuverlässigkeit von Sprachemotion-Erkennungsmethoden bei semantischen Datenverschiebungen.
Das MSAC-SERNet-Modell besteht aus drei Hauptkomponenten:
- Eine neuartige CNN-basierte Sprachemotion-Erkennungskomponente, die diskriminative emotionsbezogene Merkmale unter Verwendung von Additive Margin Softmax-Verlust extrahiert.
- Eine neuartige MSAC-Lernmethode, die die Beziehungen zwischen verschiedenen Sprachattributen (Emotion, sprecherunabhängig, emotionskorreliert) modelliert und steuert, um emotionsbezogene Merkmale zu verbessern und emotionsunabhängige Merkmale zu unterdrücken.
- Eine Zuverlässigkeitsanalyse-Komponente, die vier State-of-the-Art-Methoden zur Out-of-Distribution-Erkennung sowie eine neue rODIN-Methode verwendet, um die Zuverlässigkeit des MSAC-SERNet-Modells bei semantischen Datenverschiebungen zu untersuchen.
Umfangreiche Experimente auf sechs öffentlichen Sprachemotion-Datensätzen zeigen, dass das MSAC-SERNet-Modell nicht nur bei der Erkennung und Generalisierung, sondern auch bei der Zuverlässigkeit konsistent bessere Ergebnisse als bestehende Ansätze erzielt.
Statistieken
Die Erkennungsleistung des MSAC-SERNet-Modells auf dem IEMOCAP-Datensatz beträgt 72,97% WAR und 71,76% UAR.
Die Erkennungsleistung des MSAC-SERNet-Modells auf dem EMO-DB-Datensatz beträgt 93,21% WAR und 92,11% UAR.
Die Erkennungsleistung des MSAC-SERNet-Modells auf Kreuzkorpora beträgt 55,18% WAR und 53,67% UAR.
Die Zuverlässigkeitsleistung des MSAC-SERNet-Modells auf IEMOCAP beträgt 68,29% FPR95 und 73,23% AUROC.
Die Zuverlässigkeitsleistung des MSAC-SERNet-Modells auf Kreuzkorpora beträgt 85,27% FPR95 und 63,12% AUROC.
Citaten
"Unser vorgeschlagenes MSAC-SERNet-Modell kann nicht nur bei der Erkennung und Generalisierung, sondern auch bei der Zuverlässigkeit konsistent bessere Ergebnisse als bestehende Ansätze erzielen."
"Die Studie führt eine neuartige einheitliche Rahmenarchitektur für die Sprachemotion-Erkennung namens MSAC-SERNet ein, die die Beziehungen zwischen verschiedenen Sprachattributen präzise modelliert und steuert, um diskriminative emotionsbezogene Merkmale zu extrahieren und die Zuverlässigkeit des Modells zu verbessern."