Concepts de base
オーディオ信号の特定の音源に注目できる人間の能力を模倣するため、オーディオ評価タスクをテキスト予測タスクとして位置づける。
Résumé
本研究では、オーディオ評価タスクをテキスト予測タスクとして位置づけることで、クリーンな参照信号を必要とせず、広範囲のオーディオ評価タスクに対応できる半侵入型の手法を提案している。
具体的には以下の通り:
- オーディオ信号とテキストの入力を組み合わせ、GPT2ベースの言語モデルを用いてオーディオ品質の評価テキストを生成する。
- 実験では、スピーチおよび音楽のMOS予測、環境音のSNR推定を行い、従来手法と比較して優れた性能を示した。
- SNR推定では、信号クラスを考慮することで、混合信号中の特定の音源のSNRを推定できることを示した。
- 提案手法は、オーディオ品質の多様な側面を記述的に評価できる柔軟性を持つ。
Stats
提案手法は、従来手法と比較して、スピーチデータセットでは平均0.79、混合データセットでは平均0.45の相関係数を達成した。
SNR推定では、提案手法がRMSE 7.5を達成し、ランダムベースラインの16.56と比べて大幅に優れた性能を示した。
Citations
"オーディオ信号の特定の音源に注目できる人間の能力を模倣するため、オーディオ評価タスクをテキスト予測タスクとして位置づける。"
"提案手法は、オーディオ品質の多様な側面を記述的に評価できる柔軟性を持つ。"