Core Concepts
専門家混合型アーキテクチャと挿入・削除トークン機構を用いることで、コードスイッチングシナリオにおける音声認識精度を大幅に向上させることができる。
Abstract
本論文では、コードスイッチング(CS)シナリオにおける自動音声認識(ASR)の課題に取り組むため、音声条件付き大規模言語モデル(SC-LLM)と専門家混合(MoE)アーキテクチャを組み合わせた手法を提案している。
具体的には以下の3つの主要な貢献がある:
- MoE ベースのコネクタを導入し、SC-LLMの性能をコードスイッチングシナリオで向上させた。
- 挿入・削除トークン(IDIT)メカニズムを提案し、LLMの文章生成能力をより効果的にASRタスクに転用できるようにした。
- 2段階の漸進的な学習戦略を導入し、専門家間の協調と一般化を促進した。
実験結果では、提案手法が既存の最先端モデルと比べて10%以上の相対的な精度向上を達成し、SC-LLMの潜在的な可能性を示した。
Stats
提案手法は、ASRU-2019 Mandarin-English コードスイッチングデータセットにおいて、CER 5.13%、WER 29.36%、MER 7.76%を達成した。
提案手法は、パラメータ数が43.4Mと少ないにもかかわらず、最先端の大規模モデルを上回る性能を示した。
Quotes
"我々の方法は、頑健な音声表現、クロスモーダルアラインメント、LLMの強力な理解能力を活用することで、より効果的な視点を提供している。"
"2段階の漸進的な学習戦略を採用することで、コネクタの能力を初期に高め、その後IDIT機構を用いて音声レベルのトークンを予測するアプローチが非常に効果的であることが示された。"