この研究は、アラビア語の電話会話に特化した包括的なベンチマークを紹介し、自動音声認識(ASR)システムが直面する独特の課題に対処することを目指しています。本研究は、幅広いアラビア方言を網羅し、通話ベースのコミュニケーションの実世界条件を模倣するよう努めています。さらに、最新のASR技術を使用してベースライン性能評価を確立しようとしています。
データセットは、中東地域でエージェントとクライアント間で行われた通話から収集され、13か国から集まったスピーカーが豊富な言語的多様性を提供しています。データセットは高品質な16kHzサンプリングレートで標準化されており、異なるノイズレベルに対応するよう設計されています。41人の注釈者と13人のレビューアーによって132時間分の高品質な音声データが手作業で注釈付けされました。
5つの異なる最先端ASRシステムが評価され、Chirpが最も優れた性能を示しました。一方でWhisperは最も低い性能を記録しました。これらの結果は、ASRシステムが実際の会話を正確に転写する能力に影響を与えます。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問