Core Concepts
知覚に基づく音響合成パラメータの推定を効率的に行うための新しい損失関数PNPを提案する。PNPは知覚的妥当性と計算効率のトレードオフを解決する。
Abstract
本論文は、知覚に基づく音響合成パラメータの推定(Perceptual Sound Matching, PSM)に取り組む。PSMは、合成器の入力パラメータを最適化して、目標の音響信号を模倣することを目的とする。
提案手法の主な特徴は以下の通り:
知覚-ニューラル-物理(Perceptual-Neural-Physical, PNP)損失関数を提案する。PNPは、知覚的妥当性と計算効率のトレードオフを解決する。
PNPは、合成器の微分可能な特性と知覚特徴量の微分可能性を利用して、効率的な勾配計算を実現する。事前に計算したリーマン計量行列を用いることで、計算コストを大幅に削減できる。
PNPは、逆問題が ill-conditioned な場合でも安定した最適化を可能にするための正則化項を導入する。
2つのデータセット(AM/FM アルペジオと長方形膜モデル)を用いた実験で、PNPが既存手法に比べて優れた性能を示すことを実証する。
パラメータの再パラメータ化、事前学習、知覚特徴量の選択、勾配クリッピングなど、PSMの性能に影響する設計上の選択肢についても検討する。
Stats
合成器のパラメータ空間は最大で109次元に及ぶ
知覚特徴量の計算は非常に計算コストが高い
Quotes
"Perceptual sound matching (PSM) aims to find the input parameters to a synthesizer so as to best imitate an audio target."
"Our main contribution is perceptual–neural–physical loss (PNP), which aims at addressing a tradeoff between perceptual relevance and computational efficiency."
"PNP is the optimal quadratic approximation of a given L2 perceptual loss."