核心概念
ストリーミングTransformerエンコーダーを用いたオンラインでの拍子と強拍の同時トラッキングシステムBEASTを提案し、ベンチマークデータセットで大幅な性能向上を実現した。
要約
本論文では、オンラインでの拍子と強拍のトラッキングを行うBEASTシステムを提案している。従来のオフラインでの拍子トラッキングモデルは高い性能を示しているが、オンラインでの処理は依然として課題となっている。
BEASTは以下の特徴を持つ:
- ストリーミングTransformerエンコーダーを用いることで、過去と現在の入力特徴量のみを使ってオンラインでの処理が可能
- コンテキストブロック処理メカニズムを採用し、入力シーケンス全体を必要としない
- 相対位置エンコーディングを用いて、音楽における相対的な時間位置情報を捉える
ベンチマーク実験の結果、最大遅延50ms以下の低遅延シナリオにおいて、拍子で80.04%、強拍で46.78%のF1スコアを達成し、従来の最先端オンラインモデルと比べて5ポイント以上の大幅な性能向上を示した。これは、ストリーミングTransformerをMIRタスクに初めて適用した成果である。
統計
最大遅延46msの条件で、拍子のF1スコアは80.04%、強拍のF1スコアは46.78%
最大遅延93msの条件で、拍子のF1スコアは81.27%、強拍のF1スコアは47.23%
最大遅延186msの条件で、拍子のF1スコアは82.88%、強拍のF1スコアは51.42%
最大遅延743msの条件で、拍子のF1スコアは83.65%、強拍のF1スコアは52.54%
引用
"ストリーミングTransformerエンコーダーを用いることで、過去と現在の入力特徴量のみを使ってオンラインでの処理が可能"
"相対位置エンコーディングを用いて、音楽における相対的な時間位置情報を捉える"