Core Concepts
非アラビア語話者のクルアーン朗読を群衆調達し、詳細に標識付けされたデータセットを構築した。
Abstract
本研究では、非アラビア語話者のクルアーン朗読を学習するための課題に取り組んでいる。群衆調達を活用し、慎重に標識付けされたクルアーンのデータセットを構築する可能性を探った。特に、ボランティアベースの群衆調達手法を使用し、音声資産を収集するためのクラウドソーシングAPIを実装した。既存のモバイルアプリケーション「NamazApp」に統合し、音声朗読を収集した。また、収集した音声資産を標識付けするための「Quran Voice」というクラウドソーシングプラットフォームを開発した。その結果、11か国以上の非アラビア語話者1287人から約7000件のクルアーン朗読を収集し、1166件の朗読を6つのカテゴリーで標識付けすることができた。群衆の正確性は0.77、アノテーター間の一致度は0.63、アルゴリズムによる割り当てラベルと専門家の判断との一致度は0.89であった。
Stats
1287人の参加者から約7000件のクルアーン朗読を収集した。
1166件の朗読を6つのカテゴリーで標識付けした。
群衆の正確性は0.77、アノテーター間の一致度は0.63、アルゴリズムによる割り当てラベルと専門家の判断との一致度は0.89であった。
Quotes
"非アラビア語話者のクルアーン朗読を学習するための課題に取り組んでいる。"
"群衆調達を活用し、慎重に標識付けされたクルアーンのデータセットを構築する可能性を探った。"
"その結果、11か国以上の非アラビア語話者1287人から約7000件のクルアーン朗読を収集し、1166件の朗読を6つのカテゴリーで標識付けすることができた。"