本論文では、大規模な半教師あり学習を活用した自動音声認識モデル「Conformer-1」について紹介する。
まず、57,000時間の人手ラベル付きデータと520,000時間の擬似ラベルデータを組み合わせて学習を行った。この結果、非同期モデルでは単語誤り率が11.5%、リアルタイムモデルでは24.3%の相対的な精度向上が得られた。
また、擬似ラベルデータの追加により、モデルの雑音耐性も大幅に向上した。ガウシアンノイズやバックグラウンドノイズを加えた実験では、ノイズレベルが高くなるにつれて、擬似ラベルデータの量が多いモデルほど精度の低下が小さくなることが確認された。
さらに、固有名詞の正確な認識を評価する新しい指標を提案し、Conformer-1がこの指標でも競争力のあることを示した。
以上の結果から、大規模な半教師あり学習を活用することで、自動音声認識の精度と雑音耐性を大幅に向上させられることが明らかになった。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Kevin Zhang,... at arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07341.pdfDeeper Inquiries