本研究では、音響特性をより適切に表現するためにConstant-Q変換を入力特徴量として使用し、2つの新しいアーキテクチャを提案した。
1つ目のアーキテクチャはCRNNにディレイド畳み込みを組み合わせたものであり、音楽信号の調波構造をうまくモデル化できる。
2つ目のアーキテクチャはエンコーダ-デコーダ型で、CRNNエンコーダと非自己回帰型Transformerデコーダを組み合わせたものである。長期依存関係のモデル化に優れたTransformerデコーダを活用することで、より高精度な出力が得られる。
提案手法は、ベースラインとなる高解像度システムと比較して、ノート単位の評価指標で一貫して改善を示した。さらに、提案手法は大幅に少ないパラメータ数で実現できることも示された。これにより、リソース消費を抑えつつ理想的な楽譜化性能を達成できることが明らかになった。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問