本研究探索了通過整合面部表情、語音音調和文字稿等多模態信息,檢測豐富和靈活的情緒範圍的潛力。研究提出了一個新的框架,將情緒映射到三維的情緒-價值-覺醒-主導(VAD)空間,以反映情緒的波動和正負性,實現更多樣和全面的情緒狀態表示。
研究採用K-means聚類將情緒從傳統的離散分類轉換為連續的標記系統,並在此基礎上建立了情緒識別分類器。使用包含中國電影和電視劇片段的MER2024數據集對提出的模型進行評估,結果表明該模型成功實現了離散和連續模型之間的轉換,並生成了更多樣和全面的情緒詞彙,同時保持了較高的準確性。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询