Core Concepts
自己監督学習音声エンコーダーのコードスイッチング能力を評価する新しいゼロリソースのベンチマークを紹介します。
Abstract
ゼロリソースのコードスイッチング音声ベンチマークが導入され、自己監督学習音声エンコーダーのコードスイッチング能力を直接評価することができます。
言語モデリングシステムを基準システムとして採用し、異なるトラックで実験を行いました。
多言語事前学習を行った音声エンコーダーは、単一言語バリアントよりも優れた結果を示しましたが、まだ改善の余地があります。
コードスイッチングタスクにおける性能は、モデルサイズや事前学習言語の影響を受けます。
テキストベースの言語モデルと比較して、音声ベースのシステムはまだ改善の余地があることが示されています。
1. INTRODUCTION
コードスイッチングは日常生活で一般的な現象です。
音声処理タスクにおいてもコードスイッチングが関与する場面があります。
2. RELATED WORK
BLiMPやsBLIMPなど、文法的最小ペアタスクに関連した先行研究が存在します。
3. ZERO RESOURCE CODE-SWITCHED SPEECH TASK
sBLIMPに類似したタスク設計で、正しい発話と間違った発話から高得点を付与する任務です。
4. EXPERIMENTAL SETUP
学習セットはLibriSpeechやMAGICDATAなどからサンプリングされました。
音声エンコーダーや量子化モジュール、Unit LMなど様々な要素が含まれています。
5. RESULTS
テキストベースの言語モデルと比較して、音声ベースのシステムはまだ改善の余地があることが示されています。
Stats
"XLSR-53 (53 lang)は他の2つよりも低い精度しか出さなかった。"
"XLS-R 0.3B (128 lang)はes-enトラックで最高精度を達成した。"
"XLM-RoBERTa Baseはこのタスクに対して十分なパフォーマンスを発揮しなかった。"