核心概念
バングラ文学における著者特定のための効果的な転移学習アプローチを提案し、AWD-LSTMアーキテクチャを使用して99.8%の精度を達成した。
摘要
この記事は、バングラ文学における著者特定の重要性と難しさに焦点を当てています。インターネット上での匿名性が増加する中で、セキュリティや盗作検出分野でこのタスクがますます重要となっています。英語、スペイン語、中国語など他言語での進歩にもかかわらず、バングラでは言語的特徴や文章構造の複雑さから包括的な研究が不足しています。本研究では、AWD-LSTMアーキテクチャと効果的な転移学習手法を提案しました。また、16人の作者から成る公開データセット(BAAD16)を導入し、他言語NLPタスク向けに6つの事前トレーニング済み言語モデルをリリースしました。実験的に、提案されたモデルは最新技術モデルよりも優れたパフォーマンスを発揮し、BAAD16データセットで99.8%の精度を達成しました。
統計資料
バングラ文学における著者特定タスクは99.8%の精度を達成した。
BAAD16データセットは16人の作者から成り立ち、17,966サンプルテキストと13.4+百万単語が含まれている。
引述
"Anonymity is widespread in recent times, primarily due to the widespread use of the internet; the use and misuse of anonymity have become an essential factor to consider."
"Intelligence agencies can use it to link intercepted messages to known enemies; original authors of harassing messages can be identified."