Core Concepts
本研究では、波形ファイルからタブラ音楽を生成するための新しい手法を提案する。双方向LSTMとアテンションメカニズムを組み合わせたモデルと、トランスフォーマーモデルを開発し、優れた性能を示す。
Abstract
本研究は、クラシックピアノ音楽とタブラ音楽の生成に取り組んでいる。
まず、クラシックピアノ音楽の生成に様々なLSTMベースのモデルを適用し、その中でも双方向LSTMとアテンションメカニズムを組み合わせたモデルが最も良い性能を示した。このモデルをさらに大規模なデータセットで学習させ、高品質なピアノ音楽を生成することができた。
次に、タブラ音楽の生成に取り組んだ。タブラ音楽の特徴を捉えるため、双方向LSTMとアテンションメカニズムに加えて、さらに2つのLSTMレイヤーを追加したモデルを開発した。このモデルは、タブラ音楽の波形とスペクトログラムを良好に再現できた。
最後に、タブラ音楽生成にトランスフォーマーモデルも適用したが、双方向LSTMモデルほどの性能は得られなかった。しかし、トランスフォーマーモデルでも最初の数秒間は良好なリズミックなタブラ音楽を生成できた。今後、モデルアーキテクチャの改善により、さらに高品質なタブラ音楽の生成が期待できる。
本研究の成果は、クラシック音楽からインド古典音楽まで、幅広いジャンルの音楽生成に貢献できると考えられる。
Stats
タブラ音楽生成のBi-LSTMモデルの最終的な平均二乗誤差は4.0427、平均絶対誤差は1.0814であった。
トランスフォーマーモデルの最終的な平均二乗誤差は55.9278、平均絶対誤差は3.5173であった。