核心概念
大規模言語モデルの強力な対話能力と一般化能力を活用し、音楽の理解と生成を実現する新しいシステムを提案する。
要約
本研究は、音楽と言語の融合を目指す新しいシステム「MusiLingo」を提案している。MusiLingo は、音楽エンコーダと大規模言語モデルを組み合わせ、単一の適応層を用いて両者を整合化する。
具体的には以下の通り:
音楽エンコーダとして MERT を、言語モデルとして Vicuna を使用する。
音楽エンコーディングを言語モデルの入力に統合するための単一の適応層を学習する。
大規模な音楽キャプションデータセットを使ってプリトレーニングを行い、音楽と言語の概念的な整合性を学習する。
音楽質問応答データセット(MusicInstruct)を使ってファインチューニングを行い、音楽に関する質問への自然な回答生成を可能にする。
実験の結果、MusiLingo は音楽キャプション生成と音楽質問応答の両タスクで優れた性能を示した。特に、複雑な主観的な質問に対する回答生成において優位性が確認された。
本研究は、大規模言語モデルと音楽理解の融合による新しい可能性を示しており、音楽探索、推薦、教育などの分野での応用が期待される。
統計
音楽キャプションデータセットには平均10.2個のタグが付与されている。
MusicInstruct データセットには60,493個の質問応答ペアが含まれている。