Concepts de base
Eine Kombination aus selektiver MLM und gemeinsamen Training der Klassifizierung nicht-linguistischer Elemente übertrifft den üblichen Ansatz des Ersetzens nicht-linguistischer Elemente.
Résumé
Der Artikel untersucht verschiedene Strategien zum Vortraining von Sprachmodellen für den Cybersicherheitsbereich. Cybersicherheitsinhalte enthalten oft nicht-linguistische Elemente (NLE) wie URLs, E-Mail-Adressen und Hashwerte, die für die üblichen Vortrainingsverfahren wie Masked Language Modeling (MLM) ungeeignet sein könnten.
Der Artikel vergleicht verschiedene Strategien:
- Vanilla MLM: Das ursprüngliche MLM-Verfahren ohne Berücksichtigung von NLEs.
- Ersetzen aller NLEs: Eine häufig verwendete Strategie, bei der NLEs durch Platzhalter ersetzt werden.
- Vanilla MLM + NLE-Klassifizierung: MLM wird beibehalten, aber zusätzlich wird eine Klassifizierung der NLE-Tokens trainiert.
- Selektives Maskieren von NLEs: Nur semi-linguistische NLEs (URLs, E-Mails) werden maskiert, vollständig nicht-linguistische NLEs (IP-Adressen, Hashwerte) werden nicht maskiert.
- Selektives Maskieren + NLE-Klassifizierung: Kombination aus selektivem Maskieren und NLE-Klassifizierung.
Die Experimente zeigen, dass die Kombination aus selektivem Maskieren und NLE-Klassifizierung die besten Ergebnisse auf Downstream-Aufgaben und Sondierungsaufgaben erzielt. Das vollständige Ersetzen von NLEs führt zwar zu besseren Ergebnissen auf Downstream-Aufgaben, schneidet aber schlechter ab, wenn die Modelle in der Nähe von NLEs getestet werden.
Basierend auf diesen Erkenntnissen trainiert der Artikel das Modell "CyBERTuned", das die domänenangepasste Vortrainingsmethode verwendet und auf einer Reihe von Cybersicherheitsaufgaben die besten Ergebnisse erzielt.
Stats
16.272 URLs pro Million Wörter im Cybersicherheitskorpus, verglichen mit 62 URLs pro Million Wörter im Wikipedia-Korpus
3.282 E-Mail-Adressen pro Million Wörter im Cybersicherheitskorpus, verglichen mit weniger als 1 pro Million Wörter im Wikipedia-Korpus
2.503 IP-Adressen pro Million Wörter im Cybersicherheitskorpus, verglichen mit 3 pro Million Wörter im Wikipedia-Korpus
Citations
"Cybersicherheitsinformationen sind oft technisch komplex und werden in unstrukturiertem Text übermittelt, was die Automatisierung der Cyber-Bedrohungsintelligenz sehr herausfordernd macht."
"Vortrainierte Sprachmodelle sind unwahrscheinlich, die notwendige Expertise für Domänen entwickelt zu haben, die erhebliches Domänenwissen erfordern, wie der Cybersicherheitsbereich."