Kernekoncepter
並列トレーニングデータなしでも、大規模な非並列オーディオデータを活用することで、言語クエリに基づいた対象音声抽出モデルを効率的に学習できる。
Resumé
本研究では、言語クエリに基づいた対象音声抽出(TSE)タスクに取り組む。従来のTSEモデルは、大量の並列オーディオ-テキストデータを必要としていたが、このデータの収集は非常に労力を要する。
提案手法では、並列データを必要とせず、大規模な非並列オーディオデータのみを使用して、TSEモデルを効率的に学習する。具体的には以下の手順を踏む:
- 事前学習済みの対話型言語-オーディオ表現モデル(CLAP)を活用し、オーディオ入力をテキスト表現に変換する。
- 大規模言語モデルを使ってオーディオキャプションを生成し、それらをテキスト表現のキャッシュとして保持する。
- 学習時には、対象オーディオをCLAPエンコーダーで変換し、最も類似したテキスト表現をキャッシュから検索して条件付け情報として使用する。これにより、モダリティギャップと情報漏洩の問題を解決する。
- さらに、検索したテキスト表現にガウシアンノイズを付加することで、モデルの一般化性能を向上させる。
提案手法は、既存の最先端手法と比較して、複数のベンチマークで1-2 dBの大幅な性能向上を達成した。並列データを必要としないため、大規模な学習が可能で、汎化性能に優れる。
Statistik
対象音声と混合音声の信号対歪み比(SDRi)は、AudioCapsで9.75 dB、Clotho v2で9.43 dB、AudioSetで8.09 dB、MUSIC21で10.24 dB、ESC50で12.55 dBであった。
対象音声と混合音声の信号対干渉信号比(SI-SDRi)は、AudioCapsで8.92 dB、Clotho v2で8.12 dB、AudioSetで5.75 dB、MUSIC21で9.11 dB、ESC50で11.89 dBであった。
Citater
"並列トレーニングデータなしでも、大規模な非並列オーディオデータを活用することで、言語クエリに基づいた対象音声抽出モデルを効率的に学習できる。"
"提案手法は、既存の最先端手法と比較して、複数のベンチマークで1-2 dBの大幅な性能向上を達成した。並列データを必要としないため、大規模な学習が可能で、汎化性能に優れる。"