Die Studie beschreibt die Teilnahme des MasonTigers-Teams an der SemEval-2024 Task 8, die sich mit der Erkennung von maschinell generiertem Text in verschiedenen Kontexten befasst. Das Team setzt eine Reihe von Methoden ein, um die Aufgabe zu lösen:
Für Teilaufgabe A (Binäre Klassifikation von menschlich geschriebenem vs. maschinell generiertem Text) verwenden sie im monolingualem Szenario eine gewichtete Ensemble-Methode mit RoBERTa, DistilBERT und ELECTRA, die eine Genauigkeit von 74% erreicht. Im multilingualen Szenario nutzen sie LASER, mBERT und XLM-R in einem gewichteten Ensemble-Ansatz mit 60% Genauigkeit.
Für Teilaufgabe B (Mehrklassen-Klassifikation von maschinell generiertem Text) setzen sie RoBERTa, ELECTRA, DeBERTa-v3 ein, die in einem gewichteten Ensemble-Modell 65% Genauigkeit erreichen.
Für Teilaufgabe C (Erkennung des Übergangs zwischen menschlich geschriebenem und maschinell generiertem Text) verwenden sie TF-IDF, PPMI und RoBERTa-Einbettungen mit linearer Regression und ElasticNet, was zu einem mittleren absoluten Fehler (MAE) von 60,78 führt.
Das Team untersucht auch den Einsatz von Zero-Shot-Prompting und Fine-Tuning von FLAN-T5, das jedoch nicht die besten Ergebnisse liefert. Die Studie schließt mit einer Diskussion der Limitationen und zukünftiger Forschungsrichtungen in diesem Bereich.
To Another Language
from source content
arxiv.org
Дополнительные вопросы