Core Concepts
Whisperは、スイス・ドイツ語の音声入力に対して、標準ドイツ語の文字出力を生成することができる。
Abstract
本研究では、Whisperのスイス・ドイツ語に対する性能を、自動評価、定性的分析、人的評価の3つの観点から検討した。
自動評価では、3つの既存のテストセット(SwissDial、STT4SG-350、Swiss Parliaments Corpus)を用いて、単語誤り率(WER)とBLEUスコアを測定した。その結果、Whisperは既存のモデルと同等以上の性能を示した。
定性的分析では、Whisperの長所と短所を議論し、出力例を分析した。Whisperは概して高品質な出力を生成するが、時制の扱いや固有名詞の認識などに課題がある。
人的評価では、28名の参加者にWhisperの出力を評価してもらった。その結果、意味の保持と流暢さの両面で高い評価を得た。
以上の評価から、Whisperはスイス・ドイツ語の音声入力に対して、標準ドイツ語の出力を生成する有用なシステムであると結論付けられる。ただし、時折の誤認識や幻覚の発生には注意が必要である。
Stats
自動評価の結果、Whisperの単語誤り率は0.24-0.37、BLEUスコアは44.19-63.1であった。
人的評価では、意味の保持と流暢さの平均スコアがそれぞれ4.36/5.00、4.39/5.00であった。
Quotes
"Whisperは、スイス・ドイツ語の音声入力に対して、標準ドイツ語の出力を生成する有用なシステムである。"
"Whisperの出力には時折の誤認識や幻覚の発生があるため、注意が必要である。"