Core Concepts
Fréchet 오디오 거리(FAD) 메트릭의 성능은 사용되는 오디오 임베딩에 크게 의존한다. 도메인 특화 임베딩을 사용하면 인간 인지와의 상관관계가 크게 향상될 수 있다.
Abstract
이 연구는 Fréchet 오디오 거리(FAD) 메트릭의 성능을 향상시키기 위해 다양한 오디오 임베딩을 활용하는 방법을 탐구했다.
실험에서는 VGGish, MERT, PANNs, MS-CLAP, L-CLAP 등의 임베딩을 사용하여 FAD 점수를 계산하고, DCASE 2023 Task 7 데이터셋의 인간 평가 데이터와의 상관관계를 분석했다.
결과적으로 PANNs-WGM-LogMel 임베딩을 사용한 FAD가 오디오 품질 및 카테고리 적합성 평가와 가장 높은 상관관계(0.5 이상)를 보였다. 반면 VGGish와 음악 데이터로 학습된 임베딩은 상관관계가 매우 낮게 나타났다.
이는 FAD 메트릭 설계 시 적절한 임베딩 선택이 매우 중요함을 보여준다. 도메인 특화 임베딩을 사용하면 FAD가 인간 인지와 더 잘 부합하는 것으로 나타났다.
Stats
PANNs-WGM-LogMel 임베딩을 사용한 FAD 점수와 인간 평가 간 상관관계가 0.5 이상으로 가장 높았다.
VGGish 임베딩을 사용한 FAD 점수는 인간 평가와의 상관관계가 0.1 미만으로 매우 낮았다.
음악 데이터로 학습된 MERT-95M 임베딩도 인간 평가와의 상관관계가 매우 낮았다.
Quotes
"VGGish, the embedding used for the original Fréchet calculation, yielded a correlation below 0.1."
"PANNs-WGM-LogMel FAD and the MS-CLAP FAD demonstrate significantly high correlations with both category fit and audio quality."