Основные понятия
MCCATCH ist ein neuer Algorithmus, der Mikrogruppen von Ausreißern durch Auswertung eines "Oracle"-Plots erkennt. Er kann sowohl dimensionale als auch nicht-dimensionale Datensätze verarbeiten und sowohl Einzelausreißer als auch Mikrogruppen nach ihrer Anomalität bewerten.
Аннотация
Der Artikel präsentiert MCCATCH, einen neuen Algorithmus zur Erkennung von Mikrogruppen in Datensätzen. MCCATCH kann sowohl dimensionale als auch nicht-dimensionale Daten verarbeiten und sowohl Einzelausreißer als auch Mikrogruppen nach ihrer Anomalität bewerten.
Der Kern der Idee ist es, einen "Oracle"-Plot zu verwenden, der die 1NN-Distanz (Distanz zum nächsten Nachbarn) und die Gruppen-1NN-Distanz (Distanz zur nächsten Nachbargruppe) für jeden Datenpunkt darstellt. Dieser Plot ermöglicht es, Ausreißer und Mikrogruppen zu identifizieren und zu bewerten.
MCCATCH hat fünf Hauptziele:
- Allgemeine Eingabe: Verarbeitung beliebiger Metrikdatensätze, einschließlich nicht-dimensionaler Daten wie Graphen, Texte, Fingerabdrücke, DNA-Sequenzen, Dokumente usw.
- Allgemeine Ausgabe: Gemeinsame Bewertung von Einzelausreißern und Mikrogruppen nach ihrer Anomalität.
- Prinzipienbasiert: Einhaltung von Axiomen zur Bewertung der Anomalität.
- Skalierbar: Subquadratische Laufzeit in der Anzahl der Elemente.
- "Hands-Off": Automatische Verarbeitung ohne manuelle Anpassung.
MCCATCH wurde an 31 realen und synthetischen Datensätzen mit bis zu 1 Million Elementen getestet und erfüllt alle fünf Ziele, während 11 andere führende Methoden mindestens eines davon verfehlen.
Статистика
"Die Datensätze hatten bis zu 1 Million Elemente."
"MCCATCH benötigte nur etwa 3 Minuten, um 222.000 Netzwerkverbindungen zu verarbeiten und eine 30-elementige Mikrogruppe von bestätigten 'Denial of Service'-Angriffen zu finden."
Цитаты
"Mikrogruppen von Ausreißern deuten auf Koalition oder Wiederholung in Betrugsfällen hin, ihre Identifizierung ist daher sehr wünschenswert."
"Nur MCCATCH erfüllt alle Spezifikationen: Allgemeine Eingabe, Allgemeine Ausgabe, Prinzipienbasiert, Skalierbar und 'Hands-Off'."