本研究では、バングラ語の次の単語予測とセンテンス生成のために、拡張RNNとBi-LSTMモデルを提案した。
データセットは、bdnews24、Prothom Alo、BBC Banglaニュースから収集した1.7GBのバングラ語テキストから構築した。前処理では、不要な記号や数字を除去し、n-gramデータセットを作成した。
提案モデルは、Bi-LSTMアーキテクチャを採用し、入力単語列の長さに応じて適切なn-gramモデルを使い分けることで、高精度な予測を実現した。4-gramと5-gramモデルでは平均精度99%、平均損失2.04%と1.11%を達成した。これは既存手法と比べて大幅な精度向上を示している。
モデルは、入力単語列に応じて適切なn-gramモデルを選択し、次の単語を予測する。さらに、予測した単語を順次入力に追加しながら、文末記号を検出するまで予測を続けることで、文章の生成も可能となっている。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы