Core Concepts
ASRモデルは、子供の発音障害を診断するために有用であり、臨床分野で複雑な発音エラー診断手順を合理化できる可能性がある。
Abstract
研究目的:自動音声認識(ASR)モデルを使用して、子供の発音障害を診断する方法を提案。
データセット:137人の韓国語話者から収集された73個の単語を含むデータセット。
モデルトレーニング:wav2vec2.0 XLS-Rモデルを使用し、約90%の精度で単語の発音を予測。
評価結果:ASRモデルは、子供の発音エラー診断手順を合理化する可能性があることを示唆。
自動音声認識(ASR)モデル構築
ASRモデルは、少量のトレーニングデータで高い精度を達成。
wav2vec2.0 XLS-Rモデルは、韓国語話者から収集された単語に対して正確な予測を行う。
データ準備とトレーニング
137人の参加者から収集された73個の単語に基づくトレーニングセット。
LMウェイト付きと非LMウェイト付きモデル間で比較した結果。
結果と考察
Whisper-largeおよびWhisper-large-v2モデルは50%以上のエラー率を示すが、wav2vec2.0 XLS-Rモデルは10%未満。
LMウェイトは一部タスクでは精度向上に寄与しない可能性があることが示唆されている。
Stats
子供たちから収集された言葉に基づくトレーニングセットにより,XLS-R モデルは約90% の精度で単語発音を予測します。