Core Concepts
音楽の感情を時系列で推定し、感情の滑らかな遷移を予測することで、音楽療法や音楽配信サービスなどへの応用が期待できる。
Abstract
本研究では、音楽の感情分析に関する2つのタスクに取り組んでいる。
音楽クリップの感情(快-不快、覚醒-抑うつ)を時系列で推定する。
音楽クリップのメルスペクトログラムを入力とし、アロウザルとバレンスの値を出力する。
人間の感情評価の変動幅(標準偏差約0.3)に匹敵する精度(RMSE 0.21-0.235)を達成した。
感情の時系列データから次の感情値を予測する。
過去10フレームのアロウザルとバレンスを入力とし、次のフレームの感情値を出力する。
学習済みモデルは高精度(MSE 0.0004-0.0005)で次の感情値を予測できた。
一方で、単純な線形回帰モデルでは正確な値を予測できないものの、全体的な傾向は捉えられることが分かった。
これらの技術は、音楽療法や音楽配信サービスなどでの活用が期待できる。今後は、より最適な学習パラメータの探索や、入力形式の改善などにより、さらなる精度向上が期待できる。
Stats
音楽クリップの感情評価データの標準偏差は約0.35であり、モデルの予測精度(RMSE 0.21-0.235)はこの範囲内にある。
次の感情値予測モデルの学習時MSEは0.0004、検証時MSEは0.0005と高精度である。