核心概念
提出了一種新的高效的多尺度時間轉換器(MSTR)架構,可以有效地提取不同時間尺度的情感特徵,並在三個語音情感識別基準數據集上取得了最先進的性能,同時大幅降低了計算複雜度。
摘要
本文提出了一種新的多尺度時間轉換器(MSTR)模型,用於語音情感識別任務。MSTR模型由三個主要組件組成:
- 多尺度時間特徵算子:並行提取不同時間尺度的特徵表示。
- 分形自注意力模塊:在固定長度的窗口內高效建模時間關係,大幅降低計算複雜度。
- 尺度混合模塊:有效融合不同時間尺度的特徵,獲得統一的情感表示。
實驗結果表明,MSTR模型在IEMOCAP、MELD和CREMA-D三個語音情感識別數據集上均優於基線模型(vanilla Transformer)和其他最先進方法,同時大幅降低了計算量。這說明了多尺度特徵對於捕捉人類情感的重要性,MSTR模型能夠有效地利用不同時間尺度的情感表示。
統計資料
與基線模型(vanilla Transformer)相比,MSTR模型在IEMOCAP數據集上的加權準確率(WA)提高了1.70%,加權平均F1(WF1)提高了1.58%,計算量減少了96.25%。
在MELD數據集上,MSTR的WF1指標比最佳方法提高了0.95%,計算量減少了93.11%。
在CREMA-D數據集上,MSTR的WA和UA分別提高了2.00%和1.98%,計算量減少了86.81%。
引述
"人類情感可以在不同時間尺度的語音中得到表達,因此有效利用不同時間尺度的情感表示對於語音情感識別任務至關重要。"
"MSTR模型能夠有效地提取多尺度的情感特徵,並在三個語音情感識別基準數據集上取得了最先進的性能,同時大幅降低了計算複雜度。"