Core Concepts
多言語音声認識モデルWhisperの性能を維持しつつ、モデルサイズを圧縮する効率的な手法を提案する。
Abstract
本研究では、OpenAIのWhisperモデルを対象に分析を行っている。Whisperは99言語をカバーする多タスク多言語音声モデルで、一部の言語では優れた音声認識性能を示すが、低リソース言語では性能が低下する課題がある。特に、モデルサイズを小さくすると、この課題がより顕著になる。
本研究では、Whisperモデルにおける話者属性(性別、年齢)やモデル属性(リソース量、モデルサイズ)に関するバイアスを分析した。その結果、モデルサイズに関するバイアスは量子化によって増幅され、低リソース言語や小規模モデルに大きな影響を与えることが分かった。
このような課題に対して、本研究では「DistilWhisper」と呼ばれる新しい圧縮手法を提案する。DistilWhisperは、言語固有のモジュールを導入したファインチューニングと、大規模Whisperモデルからの知識蒸留の2つの戦略を組み合わせることで、低リソース言語の性能を向上させつつ、多タスク多言語の堅牢性を維持する。
Stats
低リソース言語ほど量子化の影響が大きい
小規模モデルほど量子化の影響が大きい