Core Concepts
TOPFORMER, ein Ensemble aus einem Transformer-basierten Modell (RoBERTa) und Topologischer Datenanalyse (TDA), übertrifft bestehende Lösungen zur Autorenzuschreibung von Deepfake-Texten, indem es kontextuelle Darstellungen und die Struktur und Form der Daten erfasst.
Abstract
Die Studie untersucht das Problem der Autorenzuschreibung (Authorship Attribution, AA) von Deepfake-Texten, bei dem nicht nur bestimmt werden soll, ob ein gegebener Text von einem Menschen oder einer Maschine (einem Large Language Model, LLM) geschrieben wurde, sondern auch, welches LLM der Autor ist.
Die Autoren schlagen TOPFORMER vor, ein Ensemble aus einem Transformer-basierten Modell (RoBERTa) und Topologischer Datenanalyse (TDA). TOPFORMER erfasst sowohl kontextuelle Darstellungen (semantische und syntaktische Merkmale) als auch die Struktur und Form der Daten (linguistische Strukturen).
Die Ergebnisse zeigen, dass TOPFORMER in allen drei getesteten Datensätzen (OpenLLMText, SynSciPass, Mixset), die die aktuelle Landschaft von Deepfake-Texten widerspiegeln, die besten Leistungen erzielt und bis zu 7% höhere Makro-F1-Werte erreicht als die Baseline-Modelle. TOPFORMER übertrifft insbesondere bei Datensätzen mit hoher Variabilität und Unausgewogenheit der Schreibstile.
Die Autoren führen weitere Analysen durch, um zu zeigen, dass die Verbesserungen von TOPFORMER nicht auf zufälligem Rauschen, sondern auf der Extraktion zusätzlicher linguistischer Merkmale durch die TDA-Komponente basieren.
Stats
Die Datensätze OpenLLMText, SynSciPass und Mixset enthalten zwischen 5 und 12 Autorenlabels, darunter menschliche und verschiedene LLM-Autoren.
Die Datensätze sind stark unausgewogen, mit deutlich mehr menschlichen als maschinell generierten Texten.
Die Datensätze umfassen unterschiedliche Schreibstile wie offenes Generieren, Paraphrasieren und Übersetzen.
Quotes
Keine relevanten Zitate identifiziert.