本論文では、Sheet Music Transformer (SMT)を提案する。SMTは、自己回帰型のTransformerベースのモデルで、入力の楽譜画像から標準的なデジタル音楽エンコーディング形式の転写を生成する。
SMTは、モノフォニックな楽譜の転写を超えた複雑な楽譜の転写に取り組む。実験では、ピアノ形式の楽譜と弦楽四重奏の楽譜の2つの多声部の楽譜シナリオを扱う。結果は、SMTモデルが複雑な楽譜レイアウトを効果的に転写できるだけでなく、現状の最先端手法を上回ることを示している。つまり、光学的音楽認識の大幅な進歩を意味している。
本研究では、3つの異なる特徴抽出器を持つSMTの変種を評価した。その中で、ConvNextベースのSMTが最も優れた結果を示した。特に、ピアノ形式の楽譜と弦楽四重奏の楽譜のデータセットでは、従来手法と比べて大幅な改善が見られた。
To Another Language
from source content
arxiv.org
Deeper Inquiries