核心概念
Proposing a novel Affective Multimodal Transformer model, Video2Music, to generate music that matches video content in terms of emotion.
要約
研究では、新しい音楽生成AIフレームワークであるVideo2Musicを開発しました。このフレームワークは、提供されたビデオに一致する音楽を生成することができます。独自のMuVi-Syncデータセットを導入し、Affective Multimodal Transformer(AMT)モデルをトレーニングして、ビデオに基づいて音楽を生成します。AMTモデルは、ビデオと音楽の関係性を理解し、感情的な類似性を強制する新しいメカニズムを組み込んでいます。提案されたVideo2Musicフレームワークは、音楽とビデオの一致に成功しました。
統計
MuVi-Sync dataset comprises 748 music videos with extracted video and music features.
RMSE (Root Mean Square Error) for note density: Bi-GRU model performs best.
RMSE for loudness: Bi-GRU model also performs best.