本研究は、頭頸部がん患者の音声品質評価に関する新しいアプローチを提案している。従来の研究では、音声ファイルを細かなセグメントに分割し、それぞれにスコアを割り当てることで、データ不足の問題に対処してきた。しかし、この手法には限界があり、全体としての音声情報が失われる可能性がある。
そこで本研究では、音声ファイル全体を学習に使うアプローチを提案する。具体的には、事前学習済みの Wav2Vec2 モデルを特徴抽出器として活用し、さらに fine-tuning を行う。特に、自己教師学習 (SSL) によって事前学習された Wav2Vec2 モデルと、自動音声認識 (ASR) によって事前学習された Wav2Vec2 モデルを比較した。
実験の結果、ASR 駆動型 Wav2Vec2 モデルが最も優れた性能を示し、わずか 95 件の訓練サンプルでも、知性度予測の平均 MSE が 0.73、重症度予測の平均 MSE が 1.15 と、従来手法を大幅に上回る精度を達成した。これは、ASR タスクと音声品質評価の間に強い相関があることを示唆している。
さらに、音声セグメントの長さや内容の違いが予測精度に与える影響についても分析を行った。重症患者の場合、セグメントの長さが短いと予測精度が低下するが、健常者の場合はセグメントの長さの影響が小さいことが分かった。一方、異なる文章を読み上げた場合でも、予測精度に大きな違いは見られなかった。
翻譯成其他語言
從原文內容
arxiv.org
深入探究