Core Concepts
Ein System, das maschinell generierten Text von menschlich geschriebenem Text über verschiedene Generatoren hinweg zuverlässig unterscheiden kann.
Abstract
Dieser Beitrag beschreibt ein System zur Erkennung von maschinell generiertem Text, das im Rahmen der SemEval-2024 Task 8 entwickelt wurde. Das System konzentriert sich auf Subtask B, bei dem es darum geht, ob ein gegebener Text von einem Menschen geschrieben oder von einem bestimmten Large Language Model (LLM) generiert wurde.
Das System verwendet eine Reihe von Transformer-basierten Modellen, darunter encoder-basierte, decoder-basierte und encoder-decoder-Modelle, die für diese Aufgabe fein abgestimmt wurden. Um die Robustheit und Generalisierungsfähigkeit zu verbessern, wurde eine gewichtete Cross-Entropy-Verlustfunktion verwendet, um das Problem der Stichprobenungleichgewichte zwischen den Klassen anzugehen. Darüber hinaus wurde eine Soft-Voting-Ensemble-Methode eingesetzt, um die Vorhersagen der verschiedenen Basismodelle zu kombinieren.
Die Experimente zeigten, dass die encoder-basierten Modelle, insbesondere Roberta-large und Deberta-large, für diese Aufgabe am besten geeignet sind. Das endgültige System erreichte eine Genauigkeit von 99,46% auf dem Entwicklungsdatensatz und belegte damit den ersten Platz in Subtask B.
Stats
Die Anzahl der Stichproben für jede Klasse ist wie folgt:
C0 (menschlich geschrieben): 63.351
C1 (ChatGPT): 13.839
C2 (Cohere): 13.178
C3 (Davinci): 13.843
C4 (BLOOMZ): 9.998
C5 (Dolly): 13.546
Quotes
Keine relevanten Zitate gefunden.