Bestehende Textdetektoren haben Schwierigkeiten, Texte zu erkennen, die sowohl von Menschen als auch von Maschinen generiert wurden, da diese Mischformen die Grenzen zwischen menschlich und maschinell geschriebenem Text verwischen.
Die Anwesenheit oder Abwesenheit von Eingabeaufforderungen hat einen signifikanten Einfluss auf die Erkennungsgenauigkeit von nullbasierten Detektoren für KI-generierten Text.
Der Kern der Arbeit ist die Entwicklung einer Methode namens "LLM Paternity Test" (LLM-Pat), die die Ähnlichkeit zwischen einem zu überprüfenden Text und einem von einem Zwischensprachmodell regenerierten Text nutzt, um zu erkennen, ob der Text von einem Großen Sprachmodell erzeugt wurde.
Das Uniform Information Density (UID)-Prinzip kann genutzt werden, um Unterschiede zwischen Texten, die von Großen Sprachmodellen (LLMs) generiert wurden, und menschlich geschriebenen Texten zu erfassen.