Core Concepts
提案するWav2codeフレームワークは、事前学習された離散コードブックを活用して、ノイズ入力から高品質な清浄な音声表現を復元し、ノイズに強いASRを実現する。
Abstract
本論文では、ノイズに強いASRのための新しい自己教師あり学習フレームワークであるWav2codeを提案する。
まず、事前学習段階では、クリーンな音声表現をコードブックに格納する。具体的には、事前学習済みのEW2エンコーダを使ってクリーンな音声特徴を抽出し、それらを最近傍特徴マッチングによってコードブックに格納する。
次に、fine-tuning段階では、ノイズ入力に対して、Transformerベースのコード予測器を用いて、コードブックから高品質なクリーンな音声表現を正確に予測する。これにより、従来の音声強調手法で生じる音声劣化を大幅に改善できる。
さらに、予測されたクリーンな表現とノイズ入力表現を対話的に融合するネットワークを提案し、忠実性と品質の両立を図る。
最終的に、合成ノイズデータセットLibriSpeech-FreeSound、および実環境ノイズデータセットCHiME-4での評価実験により、提案手法が従来手法に比べて大幅にASR性能を向上させることを示す。
Stats
ノイズ環境下でも、提案手法は平均WER 16.9%を達成し、従来手法より大幅に性能が向上した。
クリーンな音声データに対しても、提案手法はWER 11.4%を達成し、従来手法より高い精度を示した。
Quotes
"提案するWav2codeフレームワークは、事前学習された離散コードブックを活用して、ノイズ入力から高品質な清浄な音声表現を復元し、ノイズに強いASRを実現する。"
"予測されたクリーンな表現とノイズ入力表現を対話的に融合するネットワークを提案し、忠実性と品質の両立を図る。"