本研究では、音楽理解のための汎用的な事前学習モデル MERT を提案している。MERT は、大規模な自己教師学習を通じて、音響情報と音楽情報を統合的に学習することで、様々な音楽理解タスクにおいて優れた性能を発揮する。
具体的には以下の特徴を持つ:
音響情報を捉えるための教師モデルとして、Residual Vector Quantisation - Variational AutoEncoder (RVQ-VAE) を使用し、音楽情報を捉えるための教師モデルとして、Constant-Q Transform (CQT) を使用する。これにより、音楽特有の音高や和声的特徴を効果的にモデル化できる。
大規模な自己教師学習を通じて、95M パラメータから 330M パラメータまでモデルサイズを拡張することができ、様々な音楽理解タスクにおいて最先端の性能を達成する。
音響言語モデルの事前学習における不安定性の問題に取り組むため、注意緩和手法やレイヤーノーマライゼーションの変更など、安定した学習を可能にする工夫を行っている。
公開済みの音楽データセットのみを使用したモデル MERT-95M-public も提供しており、データ制限下でも高い汎化性能を発揮する。
以上のように、MERT は大規模な自己教師学習を通じて音楽理解能力を獲得した汎用的なモデルであり、音楽情報処理分野における新たな基準を示すものと期待される。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询