核心概念
ハワイ語の自動音声認識の精度を向上させるために、大量の独立したテキストデータをWhisperの基盤モデルに組み込むことが有効である。
要約
本論文では、リソースの少ないハワイ語の自動音声認識(ASR)の精度向上を目的として、大量のテキストデータを活用する方法を検討した。
まず、Whisperモデルを用いた零距離転移学習によるハワイ語ASRの基準性能を評価した。その結果、大規模なWhisperモデルが最も良好な性能を示した。
次に、約150万語のハワイ語テキストデータを用いて言語モデル(LM)を構築し、Whisperの出力にリスコアリングを適用することで、ベースラインに比べて小さいながらも有意な精度向上が得られることを示した。
さらに、LMの訓練データ量とASRの性能の関係を探索的に分析した。訓練データ量が多いほど、LMの検証時の困惑度が低下し、ASRの精度が向上する傾向が見られた。
これらの結果は、リソースの少ない言語においても、利用可能なすべてのデータを活用することで、ASRシステムの性能を向上させられる可能性を示唆している。今後は、ラベル付きのハワイ語音声データの収集や、自己教師あり学習などの手法を組み合わせることで、さらなる精度向上が期待できる。
統計
ハワイ語テキストデータの総単語数は約150万語である。
ハワイ語ASRのテストセットは57の音声-テキストペアから成り、合計1,120単語、総時間7分35秒である。