Die Studie präsentiert den Beitrag des MasonTigers-Teams zur SemEval-2024 Task 8, die sich mit der Erkennung von maschinell generiertem Text in verschiedenen Szenarien befasst. Das Team setzt eine Reihe von Methoden ein, darunter Ensemble-Techniken, Transformer-Modelle und statistische Lernverfahren, um die Herausforderungen der Aufgabe zu bewältigen.
Dieser Beitrag präsentiert eine umfassende Analyse verschiedener Methoden zur Erkennung von maschinell generiertem Text in mono- und mehrsprachigen Kontexten, einschließlich statistischer, neuronaler und vortrainierter Modellansätze. Die Studie untersucht die Effektivität dieser Techniken für die Klassifizierung von menschlich geschriebenem und maschinell generiertem Text sowie die Unterscheidung zwischen verschiedenen Textgenerierungsmodellen.
Stildarstellungen ermöglichen eine bemerkenswerte Fähigkeit, Instanzen von Text zu identifizieren, die von Sprachmodellen erstellt wurden, selbst wenn nur eine Handvoll Beispiele zur Verfügung stehen.
Kontrastives Lernen kann eine effektive Methode zur Erkennung von maschinell generiertem Text sein, auch ohne Ensemble-Modelle oder handgefertigte Merkmale.
Ein System, das maschinell generierten Text von menschlich geschriebenem Text über verschiedene Generatoren hinweg zuverlässig unterscheiden kann.
Durch die Verwendung gewichteter Durchschnitte der RoBERTa-Schichten können wir Informationen über den Text erfassen, die für die Erkennung von maschinell generiertem Text relevant sind.