In dieser Arbeit präsentieren wir unser Modell für die SemEval-2024 Aufgabe 8 zur Erkennung von von Großen Sprachmodellen generierten Texten (MGTs) in Englisch. Unser Ansatz kombiniert Textembeddings aus RoBERTa-base mit Merkmalen zur lexikalischen Vielfalt und verwendet einen angepassten Trainingsdatensatz. Unser Modell erreicht auf dem Testdatensatz eine Genauigkeit von 0.91 und belegt damit den 12. Platz unter 124 Teams.
Unsere Untersuchungen zeigen, dass linguistische Merkmale wie Stilometrie und Entity Grid allein schon konkurrenzfähige Ergebnisse liefern können. Außerdem finden wir, dass eine sorgfältige Auswahl der Trainingsdaten die Leistung der Modelle, die auf Textembeddings basieren, deutlich verbessert. Insgesamt demonstriert diese Aufgabe, dass es möglich ist, zwischen von Menschen geschriebenen Texten (HWTs) und MGTs zu unterscheiden, und zeigt vielversprechende Ansätze für zukünftige Forschung auf, wie eine eingehendere Analyse der Trainingsdatenauswahl und die Erweiterung linguistischer Merkmale.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések