本研究では、ベンガル語連続音声からスピーカーの地域を認識するための手法を提案している。バングラデシュの8つの地域(バリサル、チッタゴン、ダッカ、クルナ、ミメンシン、ラジシャヒ、ランプール、シレット)を対象とし、633人の男女話者から45時間以上の音声データを収集した。
データの前処理として、ノイズ除去や8-10秒のセグメンテーションを行った。特徴抽出にはMFCC(Mel Frequency Cepstral Coefficients)とデルタ特徴量を使用した。提案モデルは浅いANNで構成され、Adam最適化器を用いて学習を行った。その結果、85.44%の高い精度で地域分類が可能であることを示した。
本手法は、犯罪容疑者の特定や音声詐欺の検知など、様々な応用が期待できる。また、ベンガル語の自然言語処理やスピーチ認識分野への貢献も期待できる。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Hasmot Ali,M... at arxiv.org 04-24-2024
https://arxiv.org/pdf/2404.15168.pdfDeeper Inquiries