Core Concepts
본 연구는 Bi-LSTM 모델을 사용하여 방글라데시어 다음 단어 예측과 문장 생성을 효과적으로 처리하는 방법을 제안한다.
Abstract
이 연구는 방글라데시어 단어 예측 및 문장 완성을 향상시키기 위해 Bi-LSTM 모델을 제안한다. 다양한 뉴스 포털에서 수집한 1.7GB 규모의 방글라데시어 데이터셋을 사용하여 모델을 학습하였다.
데이터 전처리 과정에서 불필요한 문자를 제거하고 n-gram 데이터셋을 생성하였다. 제안된 Bi-LSTM 모델은 4-gram과 5-gram 단어 예측에서 각각 99%와 99.74%의 정확도를 달성하였으며, 기존 방법들에 비해 우수한 성능을 보였다. 또한 문장 생성 기능을 통해 입력 단어 시퀀스를 바탕으로 문장을 자동으로 완성할 수 있다.
이 연구는 방글라데시어 처리를 위한 새로운 접근법을 제시하였으며, 향후 더 다양한 데이터셋을 활용하여 모델 성능을 개선할 수 있을 것으로 기대된다.
Stats
방글라데시어 데이터셋의 총 단어 수는 약 1,000만 개이다.
제안된 Bi-LSTM 모델은 4-gram과 5-gram 단어 예측에서 각각 99%와 99.74%의 정확도를 달성하였다.
Quotes
"제안된 Bi-LSTM 모델은 기존 방법들에 비해 우수한 성능을 보였다."
"향후 더 다양한 데이터셋을 활용하여 모델 성능을 개선할 수 있을 것으로 기대된다."