Core Concepts
サイバーセキュリティ領域における非言語要素を考慮した事前トレーニング戦略の重要性
Abstract
サイバーセキュリティ情報は技術的に複雑であり、自動化が困難である。
非言語要素(URLやハッシュ値など)が含まれるため、従来の事前トレーニング手法が適切でない可能性がある。
異なる事前トレーニング手法を実験し、NLE(非言語要素)の分類と選択的マスキングを組み合わせた戦略が最も効果的であることを示唆。
CyBERTunedというサイバーセキュリティドメイン向けの言語モデルが他のPLMよりも優れたパフォーマンスを示す。
Abstract
サイバーセキュリティ情報は技術的に複雑であり、自動化が困難である。
非言語要素(URLやハッシュ値など)が含まれるため、従来の事前トレーニング手法が適切でない可能性がある。
Introduction
サイバーセキュリティは技術への依存度が高まる中で重要性が増している。
自動化されたサイバー脅威インテリジェンスの必要性は高まっているが、実現は困難とされている。
Method
サイバーセキュリティ文書から抽出されたNLEタイプに基づき、NLEスパンを利用して事前トレーニング方法を提案する。
Results
ダウンストリームタスクおよびプロビングタスクにおいて、Mask-Semis + NLEC戦略が最も優れたパフォーマンスを示す。
Stats
サイバー脅威インテリジェンスに関する文献では、CYDECデータセットでは人間F1スコア0.59、TwitterThreatsデータセットではCohen's κ 0.66と報告されています。
Quotes
"自動化されたサイバー脅威インテリジェンスは重要だ"
"CyBERTunedは他のサイバーセキュリティPLMよりも優れたパフォーマンスを示す"