核心概念
提案するCadenzaフレームワークは、入力MIDI楽譜に基づいて新しい表現的なバリエーションを生成することができる。
摘要
本研究では、PerTokと呼ばれる新しいMIDIエンコーディング手法を提案している。PerTokは、微妙な表現的詳細を捉えつつ、シーケンス長を最大59%、語彙サイズを最大95%まで削減することができる。
Cadenzaフレームワークは2つの段階から構成される:
- Composer: 入力楽譜からスタイル関連の新しいアイデアを生成する変分自己符号化器(VAE)ベースのトランスフォーマーモデル。
- Performer: 入力楽譜に表現的な特徴(ベロシティ、微細なタイミング)を付与するバイディレクショナルトランスフォーマーエンコーダ。
客観的評価と人間評価の結果から、Cadenzaは他の無条件生成モデルと同等の品質を持ちつつ、より表現的な出力を生成できることが示された。また、入力アイデアに基づいて新しい表現的なバリエーションを作成することができる。
统计
入力楽譜と生成楽譜の音高分布の類似度は71.01%
入力楽譜と生成楽譜のオンセット位置の類似度は77.99%
入力楽譜と生成楽譜の音価の類似度は88.65%
入力楽譜と生成楽譜の完全一致率は9.44%
引用
"Cadenzaは、入力楽譜に基づいて新しい表現的なバリエーションを作成することができる"
"PerTokエンコーディングは、表現的な詳細を捉えつつ、シーケンス長と語彙サイズを大幅に削減することができる"