Die Studie beschäftigt sich mit dem Problem der Autorschaftsverifikation (AV), bei dem das Ziel ist, zu bestimmen, ob ein gegebener Text von einem bestimmten Autor A oder von einem anderen Autor geschrieben wurde. Die Autoren untersuchen, ob das Hinzufügen von synthetisch generierten Texten, die den Schreibstil von A imitieren, die Leistung eines AV-Klassifikators verbessern kann.
Dazu verwenden sie drei verschiedene Generatorarchitekturen (GRU, Transformer, GPT) und zwei Trainingstrategien (basierend auf Sprachmodellen und auf generativen adversariellen Netzen). Sie testen ihre Methode auf fünf Datensätzen, von denen drei speziell für ein adversarisches Szenario erstellt wurden. Als Klassifikatoren verwenden sie Support-Vektor-Maschinen und Convolutional Neural Networks.
Die Ergebnisse zeigen, dass die Datenerweiterung nicht konsistent zu Verbesserungen führt. Die Autoren analysieren mögliche Gründe dafür, wie z.B. die unzureichende Qualität der generierten Texte oder den Mangel an Trainingsdaten.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Silvia Corba... às arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11265.pdfPerguntas Mais Profundas