核心概念
ベンガル語連続音声からスピーカーの地域を認識するための人工ニューラルネットワークモデルを提案する。
要約
本研究では、ベンガル語連続音声からスピーカーの地域を認識するための手法を提案している。バングラデシュの8つの地域(バリサル、チッタゴン、ダッカ、クルナ、ミメンシン、ラジシャヒ、ランプール、シレット)を対象とし、633人の男女話者から45時間以上の音声データを収集した。
データの前処理として、ノイズ除去や8-10秒のセグメンテーションを行った。特徴抽出にはMFCC(Mel Frequency Cepstral Coefficients)とデルタ特徴量を使用した。提案モデルは浅いANNで構成され、Adam最適化器を用いて学習を行った。その結果、85.44%の高い精度で地域分類が可能であることを示した。
本手法は、犯罪容疑者の特定や音声詐欺の検知など、様々な応用が期待できる。また、ベンガル語の自然言語処理やスピーチ認識分野への貢献も期待できる。
統計
話者数は633人(男性416人、女性217人)
収集した音声データは45時間以上、16,730個のセグメントに分割
モデルの精度は、訓練データで83.99%、検証データで85.44%
引用
「音声は効率的なコミュニケーションの強力なメディアである。話者の特徴(音質、ピッチ、トーン、リズム、共鳴、テクスチャーなど)は、話者を認識するための強力な属性として機能する。」
「地域や地域の認識は、特定の地理的地域の人々を分類する上で重要な課題である。本研究では、犯罪容疑者の特定や音声詐欺の検知などの応用が期待できる。」