Core Concepts
環境音の知覚評価と相関が高いFréchet オーディオ距離を得るためには、適切な埋め込みを選択することが重要である。
Abstract
本研究では、環境音の知覚評価と Fréchet オーディオ距離(FAD)の相関を、さまざまな音声埋め込みを用いて調べた。
VGGish、PANNs、MS-CLAP、L-CLAP、MERTの各埋め込みを使ってFADを計算した。
DCASE 2023 Task 7のデータセットを使い、オーディオ品質と音源カテゴリとの適合度の知覚評価データと比較した。
PANNs-WGM-LogMelが最も高い相関(0.5以上)を示した。一方、音楽特化の埋め込みは低い結果となった。
特に、FADの元となったVGGishは0.1以下の相関しか示さなかった。
これらの結果から、FADメトリックの設計には埋め込みの選択が非常に重要であることが示された。
Stats
環境音合成システムの評価に使用されたDCASE 2023 Task 7データセットは、約8時間分の音声で構成されている。
各システムから生成された700音声サンプルと、元の700音声サンプルの合計1400音声が評価対象となった。
91人の評価者によって、各音声のオーディオ品質とカテゴリ適合度が評価された。
Quotes
"VGGishは0.1以下の相関しか示さなかった。"
"PANNs-WGM-LogMelが最も高い相関(0.5以上)を示した。"
"特に、FADの元となったVGGishは低い結果となった。"