本論文では、COCOLAと呼ばれる新しい対照学習モデルを提案している。COCOLAは、楽曲のステム(楽器パート)間の調和性と リズム的一貫性を評価することができる。
具体的には以下の通り:
COCOLAは、楽曲のステムを入力として受け取り、それらの調和性を表すエンコーディングを学習する。同一楽曲内のステムペアは正例として、異なる楽曲のステムペアは負例として扱う。
学習したエンコーダを用いて、楽曲生成モデルの出力と入力ステムの調和性を定量的に評価できる「COCOLAスコア」を定義している。
提案手法と比較対象として、新しい楽曲生成モデルCompoNetを開発した。CompoNetは、楽曲の構成要素(ステム)を個別に生成・編集できる機能を持つ。
COCOLAスコアを用いて、CompoNetとMSDMという既存の楽曲生成モデルを比較評価した。その結果、COCOLAスコアではCompoNetの方が優れていることが示された。一方、従来の客観評価指標であるFADではMSDMの方が良い結果となった。これは、COCOLAスコアが調和性を適切に捉えられるのに対し、FADは全体的な品質評価に偏っていることを示唆している。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問