核心概念
アラビア語通話における自動音声認識の挑戦を克服するための包括的な基準の導入
要約
この研究は、アラビア語の電話会話に特化した包括的なベンチマークを紹介し、自動音声認識(ASR)システムが直面する独特の課題に対処することを目指しています。本研究は、幅広いアラビア方言を網羅し、通話ベースのコミュニケーションの実世界条件を模倣するよう努めています。さらに、最新のASR技術を使用してベースライン性能評価を確立しようとしています。
データセットは、中東地域でエージェントとクライアント間で行われた通話から収集され、13か国から集まったスピーカーが豊富な言語的多様性を提供しています。データセットは高品質な16kHzサンプリングレートで標準化されており、異なるノイズレベルに対応するよう設計されています。41人の注釈者と13人のレビューアーによって132時間分の高品質な音声データが手作業で注釈付けされました。
5つの異なる最先端ASRシステムが評価され、Chirpが最も優れた性能を示しました。一方でWhisperは最も低い性能を記録しました。これらの結果は、ASRシステムが実際の会話を正確に転写する能力に影響を与えます。
統計
ChirpはWER 48.9%、CER 22.4%という最も低いエラーレートを示した。
Meta M4TはWER 67.8%、CER 34.3%。
Google APIはWER 67.1%、CER 40.60%。
Azure APIはWER 71.88%、CER 39.04%。
Whisper Large V1はWER 83.8%、CER 52.3%。
引用
"Chirp emerges as the clear leader, boasting the lowest WER at 48.9% and CER at 22.4%"
"Whisper recorded the highest WER and CER, at 83.8% and 52.3%, respectively."