TEXTMACHINA ist ein Python-Framework, das eine umfassende Pipeline von Tools bietet, um hochwertige und unvoreingenommene Datensätze für Aufgaben im Zusammenhang mit maschinell generiertem Text (MGT) zu erstellen. Es adressiert Herausforderungen wie den Overhead bei der Implementierung, den Zugriff auf Modelle und die kontrollierte Generierung sowie die Vermeidung von Verzerrungen in den Datensätzen.
Das Framework bietet Datensatz-Generatoren für verschiedene MGT-bezogene Aufgaben wie Erkennung, Zuordnung, Grenzerkennung und Mischfall-Erkennung. Es integriert nahtlos verschiedene Anbieter von Großsprachmodellen (LLMs) und ermöglicht die Verwendung benutzerdefinierter Extraktoren, um Prompt-Vorlagen mit Informationen aus menschlichen Textdatensätzen zu füllen. Darüber hinaus bietet TEXTMACHINA Mechanismen zur automatischen Ableitung von Decodierungsparametern und umfangreiche Post-Processing-Funktionen, um gängige Verzerrungen zu vermeiden.
Das Framework wurde bereits erfolgreich eingesetzt, um hochwertige, unvoreingenommene Datensätze für Shared Tasks mit über hundert teilnehmenden Teams zu erstellen.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Tiefere Fragen