Core Concepts
NES ゲームのゲームプレイ動画とシンボリックミュージックのペアリングデータセットを提案し、ゲームプレイ動画を入力とした条件付きミュージック生成モデルのベースラインを示す。
Abstract
本研究では、NES (Nintendo Entertainment System) ゲームのゲームプレイ動画98,940本とそれぞれに対応するシンボリックフォーマット (MIDI) の音楽4,070曲からなるNES Video-Music Database (NES-VMDB) を提案した。
データセット作成の手順は以下の通り:
NES-MDB データセットから8秒以上の長さの音楽ファイルを抽出し、4,070曲を選定
YouTube上の389本のNESゲームのロングプレイ動画を収集
動画を15秒ごとに分割し、オーディオを抽出
オーディオフィンガープリンティングアルゴリズムを用いて、各クリップに対応するNES-MDB MIDIファイルを自動的に特定
さらに、NES-VMDBデータセットを用いて、Controllable Music Transformer (CMT) ベースのベースラインモデルを構築した。このモデルは、ゲームプレイ動画の特徴を入力として、NESスタイルの音楽を生成する。
生成された音楽の品質を評価するため、以下の指標を用いて、条件付きCMT、無条件CMT、人間作曲の音楽を比較した:
Grooving Pattern Similarity: 隣接小節のハミング距離の平均
Pitch Class Histogram Entropy: 正規化ピッチクラスヒストグラムのシャノンエントロピー
Pitch Range: 使用されるピッチの範囲
Number of Unique Pitch Classes: 使用されるユニークなピッチクラスの数
Number of Notes Played Concurrently: 同時に演奏されるノートの数
結果、条件付きCMTは無条件CMTよりも人間作曲の音楽に近い構造的特徴を示した。また、生成された音楽のゲームジャンルを予測するクラシファイアを訓練したところ、条件付きCMTは人間作曲の音楽よりも低い精度ながら、ゲームプレイ動画とゲームジャンルの相関を学習できることが示された。
今後の課題として、ジャンル分類精度の向上や、エンドツーエンドのゲームミュージック生成モデルの開発が挙げられる。
Stats
98,940本のNESゲームプレイ動画を収集
4,070曲のNES-MDB MIDIファイルを使用
条件付きCMTは無条件CMTよりも人間作曲の音楽に近い構造的特徴を示した
条件付きCMTのゲームジャンル予測精度は34%で、人間作曲の音楽よりも12%低かった