近年來,電信詐騙犯罪日益猖獗,執法機關積極採取各種有效措施進行打擊。其中,對報警電話中接收到的案件信息進行分類是常用的方法之一。通過這種方法,將電信詐騙細分為 14 個類別,並根據每個類別的特點採取針對性措施抓捕嫌疑人,同時對易受騙群體進行防範宣傳教育,力求將犯罪行為遏制在萌芽狀態。然而,由於警情數據的不規範性和數量龐大,基層民警仍然採用人工方式對案件類型進行分類,缺乏高效實用的自動化案件分類方法。
為了解決上述問題,本文提出了一種結合對抗訓練、預訓練語言模型(LERT)和神經網絡的文本分類模型(LERT-CNN-BiLSTM)。該模型首先使用 LERT 模型對電信詐騙警情文本進行預處理,提取語言特徵並生成詞向量。然後,將詞向量輸入到 CNN 和 BiLSTM 網絡中,分別提取局部語義信息和上下文語法信息。模型採用 FGM 對抗訓練方法對嵌入層進行擾動,以增強模型的魯棒性和泛化能力。
在實際電信詐騙案件數據集上進行的實驗表明,該模型在測試集上的準確率、精確率、召回率和 F1 值等指標均表現出色。經過大量實際數據集的訓練,該模型的準確率可達 90% 以上,基本滿足了實際應用的需求。
本文提出的結合 FGM 對抗訓練方法和 LERT-CNN-BiLSTM 架構的模型在具有高混淆度、不確定性和長度差異的文本數據中表現出良好的分類性能。該模型的建立為其他文本分類場景提供了新的思路和方法,但其在其他實踐中的進一步探索和應用還需進一步研究。
翻譯成其他語言
從原文內容
arxiv.org
深入探究