本研究では、アポロ計画の音声通信データを用いて、ASRモデルの詳細な性能分析を行った。
まず、音声データから話者情報、信号雑音比、スペクトル平坦度、発話時間などの特徴量を抽出した。これらの特徴量に基づいて、音声データを複数のサブグループに分類した。
次に、Whisperモデルを用いて各サブグループの性能(単語誤り率)を評価した。その結果、サブグループによって性能に大きな差があることが分かった。例えば、信号雑音比が高く、スペクトル平坦度が低い音声では高い性能が得られるが、話者によっては性能が低下する傾向にあった。
さらに、モデルのサイズや学習手法の違いによる性能の変化も分析した。小規模モデルの方が大規模モデルよりも一部のサブグループで優れた性能を示すことが分かった。また、fine-tuningを行うことで、サブグループ間の性能差が縮小することも明らかになった。
最後に、多言語モデルと英語モデルの性能比較を行った。大半のサブグループでは英語モデルの方が優れた性能を示したが、一部のサブグループでは多言語モデルの方が優れていた。
以上の分析結果から、ASRシステムの開発・最適化に向けた示唆が得られた。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Alkis Koudou... a las arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07226.pdfConsultas más profundas