この記事は、実世界の状況で収集された声のメッセージを使用してスピーチ感情認識モデルを作成する方法に焦点を当てています。Emotional Voice Messages(EMOVOME)データベースを使用し、専門家と非専門家によって連続および離散的な感情でラベル付けされた100人のスペイン語話者の会話から得られたデータを用いました。eGeMAPS特徴量、トランスフォーマーベースモデル、およびその組み合わせを使用して、話者非依存型のSERモデルを作成しました。事前学習済みUnispeech-LモデルとそのeGeMAPSとの組み合わせが最高の結果を達成しました。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Lucí... klokken arxiv.org 03-05-2024
https://arxiv.org/pdf/2403.02167.pdfDypere Spørsmål