Core Concepts
音声データの発音記号を自動的に復元することで、音声認識や音声合成などの音声処理タスクの精度を向上させることができる。提案手法では、音声データと対応する非発音記号テキストを組み合わせることで、従来の文字ベースの手法よりも高精度な発音記号復元が可能となる。
Abstract
本研究では、音声データと対応する非発音記号テキストを組み合わせることで、より高精度な発音記号復元を実現する手法を提案している。
まず、音声データから発音記号付きの仮の文字列を生成するために、事前学習済みの音声認識モデルを微調整する。次に、この仮の発音記号付き文字列と元の非発音記号テキストを入力として、発音記号復元モデルを学習する。モデルアーキテクチャとしては、Transformerと LSTMの2種類を検討している。
実験の結果、提案手法は従来の文字ベースの手法と比べて、発音記号誤り率を大幅に低減できることが示された。特に、クラシックアラビア語の音声データに対して45%の相対的な誤り率低減が達成された。一方で、現代標準アラビア語や方言アラビア語の音声データに対しては、発音記号付き学習データの不足により、十分な精度改善が得られなかった。
今後の課題としては、より多様な発音記号付き音声データを活用することで、提案手法の汎用性を高めることが挙げられる。また、音声認識モデルの精度向上も重要であり、発音記号復元とのエンドツーエンドの最適化も検討していく必要がある。
Stats
音声認識モデルのキャラクタ誤り率(CER)は、クラシックアラビア語の音声データに対して2.90%、女性話者のニュース音声に対して27.5%、男性話者のニュース音声に対して21.06%であった。
単語誤り率(WER)は、クラシックアラビア語の音声データに対して14.43%、女性話者のニュース音声に対して87.3%、男性話者のニュース音声に対して72.4%であった。
Quotes
"音声データの発音記号を自動的に復元することで、音声認識や音声合成などの音声処理タスクの精度を向上させることができる。"
"提案手法では、音声データと対応する非発音記号テキストを組み合わせることで、従来の文字ベースの手法よりも高精度な発音記号復元が可能となる。"