本研究では、HuBERT ベースの GMP-ATL (Gender-augmented Multi-scale Pseudo-label Adaptive Transfer Learning) フレームワークを提案している。
まず、HuBERT モデルを用いて感情と性別の多タスク学習を行い、多階層の疑似ラベルを獲得する。次に、これらの疑似ラベルを活用してHuBERTモデルを再学習する。最後に、発話レベルの感情ラベルを用いてファインチューニングを行う。
実験の結果、提案手法はIEMOCAPデータセットにおいて、従来の単一モーダルな手法を大幅に上回る音声感情認識精度を達成し、マルチモーダルな手法とも匹敵する性能を示した。
特に、HuBERTモデルの3番目の最終層の特徴量を用いて生成した疑似ラベルが最も有効であることが分かった。これは、最終層の特徴量には感情に関する情報が十分に含まれていないためと考えられる。
提案手法は、発話レベルの感情ラベルだけでなく、フレームレベルの感情情報も効果的に活用することで、音声感情認識の精度向上に寄与している。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Yu Pan,Yugua... о arxiv.org 05-06-2024
https://arxiv.org/pdf/2405.02151.pdfГлибші Запити