音声感情認識

Connexion

Idée - 音声感情認識

自己教師あり学習特徴量を用いた音声感情認識と音声区間検出のEnd-to-End統合

ノイズ環境下における音声感情認識の精度向上のため、自己教師あり学習（SSL）特徴量を用いて音声区間検出（VAD）と音声感情認識（SER）をEnd-to-Endで統合する手法を提案する。

HuBERT を用いた性別情報を含む多階層疑似ラベルを活用したアダプティブ転移学習による高精度な音声感情認識

提案するGMP-ATLフレームワークは、HuBERTモデルを活用し、性別情報を含む高品質な多階層疑似ラベルを獲得し、それらを効果的に活用することで、従来手法を大幅に上回る音声感情認識精度を実現する。

音声の音響特徴と言語特徴を用いた感情認識のためのフュージョンアプローチ

音声の音響特徴と言語特徴を組み合わせることで、単一のモダリティを使用する場合よりも感情認識の性能が向上することを示した。特に、文脈依存の単語埋め込みであるBERTを使用することで、従来の単語埋め込みであるGloveよりも良い性能が得られることを明らかにした。また、IEMOCAP データセットにおいて、学習と評価の際のスピーカーやスクリプトの重複が、特に言語モデルの性能に大きな影響を与えることを指摘した。

MSAC-SERNet: A Reliable Unified Framework for Speaker-Independent Speech Emotion Recognition

音声感情認識の信頼性を高める統合フレームワークの提案とその効果的な実装に焦点を当てる。

À propos

Produits

Ressources