Core Concepts
音声認識基盤モデルであるWhisperとMMSは、事前学習時に見られなかった音声分類タスクにおいても、単純なテンプレートベースのプロンプティングによって、ゼロショット学習で良好な性能を発揮できることが示された。
Abstract
本研究は、音声認識基盤モデルであるWhisperとMMSの、事前学習時に見られなかった音声分類タスクにおける零距離学習能力を調査したものである。
まず、8つの音声分類データセットを用いて、WhisperとMMSのゼロショット音声分類性能を評価した。その結果、Whisperは単純なテンプレートベースのプロンプティングによって、平均で30%の精度を達成し、既存の零距離学習ベースラインを9.2%上回る性能を示した。一方、MMSはゼロショット音声分類に失敗した。
次に、出力確率の事前分布への再調整手法を適用したところ、Whisperの性能が大幅に向上し、平均精度48.2%を達成した。これは、事前学習時のバイアスを除去することで、基盤モデルの潜在的な能力を引き出せることを示している。
さらに、プロンプトの設計や、モデルサイズの増大に伴う性能向上など、Whisperのゼロショット音声分類能力の特性を分析した。最後に、音声質問応答タスクにおいても、Whisperがゼロショット学習で良好な性能を発揮することを示した。
全体として、本研究は、音声認識基盤モデルが事前学習時とは異なるタスクにおいても、適切なプロンプティングと事前分布の調整によって、ゼロショット学習で優れた性能を発揮できることを明らかにした。
Stats
音声認識基盤モデルWhisperの大規模版(1.6B)は、8つの音声分類タスクにおいて平均48.2%の精度を達成した。これは、ランダムベースラインの4.6倍の性能である。
Quotes
"音声認識基盤モデルであるWhisperは、事前学習時に見られなかった音声分類タスクにおいても、単純なテンプレートベースのプロンプティングによって、ゼロショット学習で良好な性能を発揮できる。"
"出力確率の事前分布への再調整手法を適用することで、Whisperの性能が大幅に向上し、平均精度48.2%を達成した。"