本研究では、バングラ語の次の単語予測とセンテンス生成のために、拡張RNNとBi-LSTMモデルを提案した。
データセットは、bdnews24、Prothom Alo、BBC Banglaニュースから収集した1.7GBのバングラ語テキストから構築した。前処理では、不要な記号や数字を除去し、n-gramデータセットを作成した。
提案モデルは、Bi-LSTMアーキテクチャを採用し、入力単語列の長さに応じて適切なn-gramモデルを使い分けることで、高精度な予測を実現した。4-gramと5-gramモデルでは平均精度99%、平均損失2.04%と1.11%を達成した。これは既存手法と比べて大幅な精度向上を示している。
モデルは、入力単語列に応じて適切なn-gramモデルを選択し、次の単語を予測する。さらに、予測した単語を順次入力に追加しながら、文末記号を検出するまで予測を続けることで、文章の生成も可能となっている。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Md Robiul Is... klokken arxiv.org 05-06-2024
https://arxiv.org/pdf/2405.01873.pdfDypere Spørsmål