Core Concepts
ベンガル語の偽レビューを検出するための新しいデータセットの作成と、事前学習済みのトランスフォーマーモデルを組み合わせた強力な検出モデルの提案。
Abstract
本研究では、ベンガル語の偽レビューを検出するための新しいデータセット「BFRD」を作成しました。このデータセットには、7,710件の本物のレビューと1,339件の偽レビューが含まれています。
データ収集時には、ロマナイズされたベンガル語や英語の単語が多数含まれていたため、それらを適切に処理するためのテキスト変換パイプラインを開発しました。
さらに、テキストの増強手法を用いて偽レビューのインスタンス数を増やし、クラスの不均衡を解消しました。
最後に、4つの事前学習済みベンガル語モデル(BanglaBERT Base、BanglaBERT、BanglaBERT Large、BanglaBERT Generator)を組み合わせた重み付けアンサンブルモデルを提案しました。
この提案モデルは、深層学習モデルやその他のトランスフォーマーモデルよりも優れた性能を示し、13,390件のレビューに対して0.9843のweighted F1スコアを達成しました。
Stats
偽レビューの平均単語数は116.35、本物のレビューの平均単語数は120.35
偽レビューの平均ユニーク単語数は84.99、本物のレビューの平均ユニーク単語数は88.42
偽レビューの最大長さは693単語、本物のレビューの最大長さは1,614単語