Core Concepts
提案手法は、楽器ごとの特徴を捉えた単一のネットワークを用いて、混合音声から楽器ごとの類似性を計算することができる。
Abstract
本研究では、楽器ごとの特徴を捉えた多次元分離表現を学習する手法を提案している。
具体的には以下の通りである:
- 楽器ごとの類似性を捉えるため、Conditional Similarity Networkを用いて、楽器ごとの部分空間を持つ単一の埋め込み空間を学習する。
- 楽器ごとの特徴を捉えるため、擬似的に混合した音声を入力データとして使用し、楽器ごとの三項損失と補助損失を用いて学習を行う。
- 実験の結果、提案手法は楽器ごとの特徴を適切に捉えており、特に、ドラムやギターの類似性評価では人間の知覚とも整合することが示された。
Stats
現在の音楽市場には約1億曲が存在し、ユーザーが全てを聴くことは不可能である。
従来の手法では、楽曲全体の特徴を用いて類似性を計算していたが、ユーザーが注目する楽器音に着目した類似性計算が望ましい。
従来の楽器音に着目した手法では、個別の楽器音を入力として使用する必要があり、実用的ではない。
Quotes
"To achieve a flexible recommendation and retrieval system, it is desirable to calculate music similarity by focusing on multiple partial elements of musical pieces and allowing the users to select the element they want to focus on."
"One limitation of this method is the need of individual instrumental sounds not only in training but also in inference, where individual instrumental sounds are difficult to obtain in practice."