Core Concepts
先住民族の言語のための信頼性の高い自動音声認識モデルを提案し、ワイカナ語とコティリア語の初めての ASR モデルを報告した。
Abstract
この論文では、ケチュア語、グアラニ語、ブリブリ語、コティリア語、ワイカナ語の5つの先住民族の言語に対して信頼性の高い自動音声認識 (ASR) モデルを提案している。
まず、様々なソースからスピーチコーパスを収集し、データ拡張手法を適用することで、NeurIPS 2022 の AmericasNLP 競争の優勝アプローチを実現した。次に、Wav2vec2.0 XLS-R モデルの300Mと1Bのパラメータ数のバリアントを評価し、言語ごとの最適なハイパーパラメータを系統的に調査した。その結果、フリーズファインチューニングの更新数とドロップアウト率が、学習率やエポック数よりも重要なパラメータであることが分かった。
さらに、ソボル感度分析を行い、各ハイパーパラメータの影響を定量的に評価した。その結果、フリーズファインチューニングの更新数とドロップアウト率が最も重要であることが示された。
最後に、ワイカナ語とコティリア語の初めての ASR モデルを公開し、先住民族の言語の ASR 技術の進歩につなげることを目指している。
Stats
ケチュア語の最良モデルの WER は48.98%、CERは12.14%
コティリア語の最良モデルの WER は79.69%、CERは36.59%
グアラニ語の最良モデルの WER は62.91%、CERは15.59%
ブリブリ語の最良モデルの WER は69.03%、CERは34.70%
ワイカナ語の最良モデルの WER は68.42%、CERは35.23%