Grunnleggende konsepter
지각적 음향 매칭(PSM)은 합성기의 입력 매개변수를 찾아 오디오 타겟을 가장 잘 모방하는 것을 목표로 합니다. 본 논문에서는 차별화 가능한 합성기를 사용할 때 적절한 손실 함수를 설계하는 문제를 다룹니다. 저자들의 주요 기여는 지각-신경-물리적 손실(PNP)이라는 새로운 손실 함수로, 지각적 관련성과 계산 효율성 간의 절충을 다룹니다.
Sammendrag
이 논문은 지각적 음향 매칭(PSM)에 대해 다룹니다. PSM은 합성기의 입력 매개변수를 찾아 오디오 타겟을 가장 잘 모방하는 것을 목표로 합니다.
저자들은 차별화 가능한 합성기를 사용할 때 적절한 손실 함수를 설계하는 문제를 다룹니다. 주요 기여는 지각-신경-물리적 손실(PNP)이라는 새로운 손실 함수를 제안하는 것입니다. PNP는 지각적 관련성과 계산 효율성 간의 절충을 다룹니다.
PNP는 주어진 L2 지각 손실의 최적 2차 근사치입니다. 이는 (Φ ◦ g)의 미분 가능한 맵에 의해 형성된 Riemannian 계량을 사용하는 이중선형 형식을 취합니다. 이러한 계량 행렬은 메모리에 미리 계산 및 캐싱될 수 있어 계산 효율성을 높입니다. 또한 저자들은 역문제가 ill-conditioned인 경우 커널 행렬에 보정 항을 추가하는 메커니즘을 제안합니다.
저자들은 AM/FM 아르페지오 및 직사각형 드럼 물리적 모델의 두 가지 차별화 가능한 합성기에 대해 실험을 수행합니다. 실험 결과, PNP 손실을 최적화하는 모델이 두 음향 매칭 작업에서 일관되게 가장 좋은 성능을 보였습니다. 또한 저자들은 학습 동역학과 ablation 연구를 통해 제안된 모델의 핵심 요인을 논의합니다.
Statistikk
합성기 매개변수 범위:
AM/FM 아르페지오: fc ∈ [512, 1024] Hz, fm ∈ [4, 16] Hz, γ ∈ [0.5, 4] Hz
드럼 합성기: ω0 ∈ [40, 1000] Hz, τ0 ∈ [0.4, 3] s, p ∈ [10^-5, 0.2], D ∈ [10^-5, 0.3], α ∈ [10^-5, 1]
데이터셋 크기:
AM/FM 아르페지오: 27,000개 샘플
드럼 합성기: 100,000개 샘플
샘플링 레이트:
AM/FM 아르페지오: 8192 Hz
드럼 합성기: 22,050 Hz
Sitater
"지각적 음향 매칭(PSM)은 합성기의 입력 매개변수를 찾아 오디오 타겟을 가장 잘 모방하는 것을 목표로 합니다."
"PNP는 주어진 L2 지각 손실의 최적 2차 근사치입니다."
"PNP는 (Φ ◦ g)의 미분 가능한 맵에 의해 형성된 Riemannian 계량을 사용하는 이중선형 형식을 취합니다."