Core Concepts
単一のマルチタスク学習モデル「UniverSLU」を構築し、12種類の音声分類およびシーケンス生成タスクにわたって優れた性能を達成する。
Abstract
本研究では、大規模な音声基盤モデルを利用して、単一のマルチタスク学習モデル「UniverSLU」を構築しました。UniverSLUは以下の特徴を持ちます:
12種類の音声分類およびシーケンス生成タスクにわたって優れた性能を発揮し、多くのタスクでSOTAを上回る結果を示しました。
単一のモデルで複数のタスクを処理できるため、コスト効率が高い。
自然言語命令を使ったプロンプティングにより、ユーザーフレンドリーな操作性を実現しました。命令文の言い換えにも対応可能です。
既知のタスクタイプに対して、新しいデータセットや言語でも一定の汎化性能を示しました。
具体的には以下の知見が得られました:
自然言語命令を使ったプロンプティングは、単一トークンのタスク指定子を使う手法と同等の性能を発揮し、さらにユーザーフレンドリーな操作性を実現しました。
UniverSLUは12種類のタスクにわたって、多くの場合SOTAを上回る性能を示しました。特に、音声コマンド認識、感情認識、アクセント分類などの低リソースタスクで顕著な性能向上が見られました。
UniverSLUは、既知のタスクタイプに対して新しいデータセットや言語でも一定の汎化性能を示しましたが、完全に新しいタスクタイプには対応できていません。今後の課題として、LLMベースのデコーダの統合や、few-shot学習手法の導入などが考えられます。
Stats
音声コマンド認識タスクでは、「音声コマンドを分類します。オプションは0."go", 1."down", 2."silence", ...」というように、オプションリストを命令文に含めることで高い性能を達成しました。
感情認識タスクでは、UniverSLUの性能が74.7%に達し、SOTAを上回りました。
アクセント分類タスクでは、UniverSLUが99.9%の精度を達成し、SOTAを大幅に上回りました。