本論文では、音楽の感情分析に関する研究を行っている。音楽は感情の表現手段として重要であり、音楽情報検索の分野では音楽の感情を自動的に認識することが重要な課題となっている。従来の研究では主にオーディオ情報のみを用いた感情分析が行われてきたが、リリックスも感情表現に重要な役割を果たしている。
本研究では、オーディオとリリックスの両方を用いた感情分析手法を提案している。具体的には、オーディオ分析モデルとテキスト分析モデルを個別に評価し、その後これらを融合する手法を検討している。オーディオ分析では、Russell の2次元感情モデル(valence-arousal)に基づいて分類を行っている。テキスト分析では、Hugging Faceのモデルを使用し、リリックスの感情を分類している。
融合手法としては、最高確率選択、平均予測、重み付き組み合わせの3つを検討している。その結果、重み付き組み合わせ(オーディオ60%、リリックス40%)が最も良い性能を示すことが分かった。これは、オーディオとリリックスの両方の情報を活用することで、感情分類の精度が向上することを示している。
今後の課題としては、感情分類の精度をさらに向上させるためのモデル改善や、オーディオとリリックスの感情が対照的な場合の分析などが挙げられる。また、大規模で高品質なデータセットの構築も重要な課題である。
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Lea Schaab,A... klo arxiv.org 05-06-2024
https://arxiv.org/pdf/2405.01988.pdfSyvällisempiä Kysymyksiä