Core Concepts
低リソース言語での初期デコーディングとラティス再スコアリングにおける最小限拡張言語モデルの効果的な利用方法。
Abstract
この論文は、低リソース言語における音声認識精度向上の問題を取り上げています。初期デコーディング時に基準言語モデルを最小限拡張し、生成されたラティスを大きな言語モデルで再スコアリングすることで、相対的な単語エラー率削減が可能です。この手法は、大規模なテキストコーパスを活用しながら計算資源を節約することができます。
1 Introduction
低リソースASRに関心が高まっている。
資源不足によりWERが高くなる。
2 Related Work
テキスト選択方法や異なるサイズのデータセットで実験されている。
3 OOV Problem in Low Resource Agglutinative and Inflective Languages
低リソース言語ではOOV率が高い。
OOV検出と回復への研究が進んでいる。
4 Concept of Decoding and Lattice Rescoring
ラティス再スコアリングはパフォーマンス向上に有効。
初期デコーディング時に最小限拡張した言語モデルを使用することでWER削減可能。
5 Datasets and Experimental Setup
異なるサイズのデータセットで実験を行い、結果を比較している。
6 Experiments
最小限拡張した言語モデルを使用した初期デコードと後続のラティス再スコアリングが有効であることを示している。
Data Extraction (Stats)
Telugu ASRシステムではOOV率12.04%、Kannada ASRシステムではOOV率25.22%。
Stats
自動音声認識システム(ASR)では、Telugu ASRシステムではOOV率12.04%、Kannada ASRシステムではOOV率25.22%です。