本研究では、音声データと対応する非発音記号テキストを組み合わせることで、より高精度な発音記号復元を実現する手法を提案している。
まず、音声データから発音記号付きの仮の文字列を生成するために、事前学習済みの音声認識モデルを微調整する。次に、この仮の発音記号付き文字列と元の非発音記号テキストを入力として、発音記号復元モデルを学習する。モデルアーキテクチャとしては、Transformerと LSTMの2種類を検討している。
実験の結果、提案手法は従来の文字ベースの手法と比べて、発音記号誤り率を大幅に低減できることが示された。特に、クラシックアラビア語の音声データに対して45%の相対的な誤り率低減が達成された。一方で、現代標準アラビア語や方言アラビア語の音声データに対しては、発音記号付き学習データの不足により、十分な精度改善が得られなかった。
今後の課題としては、より多様な発音記号付き音声データを活用することで、提案手法の汎用性を高めることが挙げられる。また、音声認識モデルの精度向上も重要であり、発音記号復元とのエンドツーエンドの最適化も検討していく必要がある。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Sara Shatnaw... at arxiv.org 04-09-2024
https://arxiv.org/pdf/2311.10771.pdfDeeper Inquiries