Core Concepts
Unser zweistufiges multimodale System nutzt fortschrittliche Sprachmodelle und etablierte Maschinenlernverfahren, um sowohl schädliche Texte als auch Bilder effizient zu erkennen, ohne dabei hohe Ressourcen zu benötigen. Es kann sogar schädliche Bilder allein anhand eines auf schädlichen Texten trainierten Modells identifizieren.
Abstract
Dieses Papier stellt ein zweistufiges multimodales System zur Erkennung schädlichen Verhaltens in Online-Communities vor. Das System nutzt fortschrittliche Sprachmodelle wie CLIP-ViT, um Tweets und Bilder in Vektordarstellungen zu überführen, die sowohl semantische Bedeutung als auch subtile kontextuelle Hinweise erfassen. Diese Darstellungen werden dann von konventionellen Maschinenlernalgorithmen wie SVM oder logistischer Regression klassifiziert, um schädliche Inhalte mit hoher Genauigkeit und Trefferquote zu identifizieren.
Das System zeichnet sich durch seine Effizienz aus - es ist nicht nur in der Lage, schädliche Textinhalte mit nahezu perfekter Leistung zu erkennen, sondern kann dank seiner multimodalen Eingabe auch schädliche Bilder ohne zusätzliches Training erkennen (Zero-Shot-Lernen). Darüber hinaus kann es sich schnell an neue Formen schädlicher Inhalte anpassen, indem der Klassifikator mit den entsprechenden Texteinbettungen nachtrainiert wird.
Das System besteht aus mehreren Schritten:
- Generierung multimodaler Einbettungen: Die Tweets werden mit dem CLIP-ViT-Modell in Vektordarstellungen überführt, die visuelle und textuelle Informationen erfassen.
- Visualisierung und Analyse der Einbettungen: Die Einbettungen werden mit UMAP auf 3D reduziert, um die Ähnlichkeit zwischen Tweets und ihren umformulierten Versionen zu visualisieren.
- Erstellung eines Datensatzes für schädliche Bilder: Durch Schlüsselwortsuche und Verwendung der Originaltexte werden relevante schädliche Bilder gesammelt und manuell verifiziert.
- Experimente zur Erkennung schädlicher Kommentare und Bilder: Die Experimente zeigen, dass das System sowohl schädliche Tweets als auch Bilder mit hoher Genauigkeit, Trefferquote und F1-Wert erkennen kann.
Insgesamt bietet das System eine effiziente und leistungsfähige Lösung zur Erkennung schädlicher Inhalte in Online-Communities, die sich durch geringe Kosten und hohe Anpassungsfähigkeit auszeichnet.
Stats
Unser Datensatz enthält insgesamt 19.190 schädliche Tweets und 17.077 nicht-schädliche Tweets.
Wir verwendeten 200 normale und 200 schädliche Bilder, um die Fähigkeit des Systems zur Zero-Shot-Erkennung schädlicher Bilder zu testen.
Quotes
"Unser zweistufiges multimodale System nutzt fortschrittliche Sprachmodelle und etablierte Maschinenlernverfahren, um sowohl schädliche Texte als auch Bilder effizient zu erkennen, ohne dabei hohe Ressourcen zu benötigen."
"Das System zeichnet sich durch seine Effizienz aus - es ist nicht nur in der Lage, schädliche Textinhalte mit nahezu perfekter Leistung zu erkennen, sondern kann dank seiner multimodalen Eingabe auch schädliche Bilder ohne zusätzliches Training erkennen (Zero-Shot-Lernen)."