Die Studie beschreibt die Teilnahme des MasonTigers-Teams an der SemEval-2024 Task 8, die sich mit der Erkennung von maschinell generiertem Text in verschiedenen Kontexten befasst. Das Team setzt eine Reihe von Methoden ein, um die Aufgabe zu lösen:
Für Teilaufgabe A (Binäre Klassifikation von menschlich geschriebenem vs. maschinell generiertem Text) verwenden sie im monolingualem Szenario eine gewichtete Ensemble-Methode mit RoBERTa, DistilBERT und ELECTRA, die eine Genauigkeit von 74% erreicht. Im multilingualen Szenario nutzen sie LASER, mBERT und XLM-R in einem gewichteten Ensemble-Ansatz mit 60% Genauigkeit.
Für Teilaufgabe B (Mehrklassen-Klassifikation von maschinell generiertem Text) setzen sie RoBERTa, ELECTRA, DeBERTa-v3 ein, die in einem gewichteten Ensemble-Modell 65% Genauigkeit erreichen.
Für Teilaufgabe C (Erkennung des Übergangs zwischen menschlich geschriebenem und maschinell generiertem Text) verwenden sie TF-IDF, PPMI und RoBERTa-Einbettungen mit linearer Regression und ElasticNet, was zu einem mittleren absoluten Fehler (MAE) von 60,78 führt.
Das Team untersucht auch den Einsatz von Zero-Shot-Prompting und Fine-Tuning von FLAN-T5, das jedoch nicht die besten Ergebnisse liefert. Die Studie schließt mit einer Diskussion der Limitationen und zukünftiger Forschungsrichtungen in diesem Bereich.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Sadiya Sayar... um arxiv.org 03-25-2024
https://arxiv.org/pdf/2403.14989.pdfTiefere Fragen