本研究では、ピアノ楽譜変換の高性能化、軽量化、および実時間推論を同時に実現するための新しいCRNNモデルを提案している。
主な内容は以下の通り:
周波数依存の特徴抽出を可能にするFiLMレイヤーをCNNモジュールに追加した。これにより、低音域と高音域の異なる音響特性を適切にモデル化できる。
88個の独立したピッチワイズLSTMを用いて、ノートの状態遷移をピッチごとに学習する。これにより、ノートの長さや音域に依存しない高精度な予測が可能になる。
前フレームのノート状態、持続時間、ベロシティを組み合わせた拡張再帰コンテキストを導入した。これにより、長いノートの終端検出精度が向上した。
上記の新しい構成要素を組み合わせた2種類のモデル(高性能モデルと軽量モデル)を提案し、実験的に評価した。
複数のピアノ演奏データセットを用いた評価から、提案モデルが既存手法と同等以上の性能を示すことを確認した。特に、ノートの長さや音域に依存しない高精度な予測が可能であることを示した。
翻譯成其他語言
從原文內容
arxiv.org
深入探究