本研究では、知覚メトリクスであるMS-SSIM(Multi-Scale Structural Similarity)とNLPD(Normalized Laplacian Pyramid Distance)を用いて、音楽ジャンル分類の性能を評価した。
まず、K-Nearest Neighborsクラスタリングを用いて、これらの知覚メトリクスと平均二乗誤差(MSE)を距離尺度として比較した。その結果、MSEと1-MS-SSIMの方がNLPDよりも適切な距離尺度であることが示された。
次に、一様ノイズを入力として学習したオートエンコーダーの潜在特徴を用いて、ロジスティック回帰分類器を構築した。その結果、NLPD及び1-MS-SSIMを損失関数として用いたオートエンコーダーから得られた特徴が、MSEを用いたものよりも高い分類性能を示した。
これらの結果は、知覚メトリクスを損失関数として使用することで、音楽ジャンル分類のための有用な表現が学習できることを示唆している。一方で、メトリクスの選択には注意が必要で、タスクに応じて適切なメトリクスを選択する必要がある。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询