核心概念
大規模言語モデルは、フィッシング メールを高い精度で検出できる。
摘要
本研究は、15種類の大規模言語モデルのフィッシング メール検出能力を評価しました。
- データセットには、419詐欺メールを含む4,075通の不正メールを使用しました。
- 各モデルに対して、送信者のメールアドレスの信頼性、メッセージの緊急性と口調、個人情報や金融情報の要求、不審な内容などの基準に基づいて評価を行いました。
- 評価の結果、ChatGPT 3.5、GPT-3.5-Turbo-Instruct、ChatGPTが最も優れたフィッシング検出能力を示しました。これらのモデルは、デコーダー主体の構造と膨大なパラメータ数により、言語パターンと文脈を深く理解できるためです。
- 一方、BERT ベースのモデルは相対的に低い性能でした。これらのモデルはエンコーダー主体の構造で、生成タスクに不向きなためと考えられます。
- 大規模言語モデルの高度な予測能力と文脈理解力を活用することで、フィッシング検出システムの精度と効率を大幅に向上できる可能性が示されました。
統計資料
フィッシング メールの可能性が最も高いと判断されたのは、スコア9または10の評価を受けたメールでした。
ChatGPT 3.5、GPT-3.5-Turbo-Instruct、ChatGPTは、ほとんどのメールにスコア9または10を付けていました。
Mistral Medium、fw-mistral-7b、Llama-2-70b-Groq、Claude-2-100k、Claude-Instantは、メールのスコアが2から10の範囲に分散していました。