本研究では、28言語にわたる80時間の多言語セマンティック音声分類データセット「SpeechTaxi」を構築した。このデータセットを用いて、(1)端末間分類(E2E)と(2)音声認識+テキスト分類のカスケード型アプローチ(CA)の性能を比較した。
単一言語での分類タスクでは、E2Eアプローチが優れた性能を発揮した。特に、最新の多言語音声エンコーダーXEUSが最高の精度を示した。一方、言語横断的な分類タスクでは、CASCADEアプローチが優れた性能を示した。多言語音声エンコーダーは言語間の転移学習が苦手であり、E2Eアプローチは大幅に劣る結果となった。
また、低リソース言語に対するロバストな解決策として、ローマ字変換を用いたCASCADEアプローチを提案した。この手法は、音声認識モデルがサポートしていない言語でも安定した性能を発揮することが示された。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Lenn... alle arxiv.org 09-11-2024
https://arxiv.org/pdf/2409.06372.pdfDomande più approfondite