TEXTMACHINA ist ein Python-Framework, das eine umfassende Pipeline von Tools bietet, um hochwertige und unvoreingenommene Datensätze für Aufgaben im Zusammenhang mit maschinell generiertem Text (MGT) zu erstellen. Es adressiert Herausforderungen wie den Overhead bei der Implementierung, den Zugriff auf Modelle und die kontrollierte Generierung sowie die Vermeidung von Verzerrungen in den Datensätzen.
Das Framework bietet Datensatz-Generatoren für verschiedene MGT-bezogene Aufgaben wie Erkennung, Zuordnung, Grenzerkennung und Mischfall-Erkennung. Es integriert nahtlos verschiedene Anbieter von Großsprachmodellen (LLMs) und ermöglicht die Verwendung benutzerdefinierter Extraktoren, um Prompt-Vorlagen mit Informationen aus menschlichen Textdatensätzen zu füllen. Darüber hinaus bietet TEXTMACHINA Mechanismen zur automatischen Ableitung von Decodierungsparametern und umfangreiche Post-Processing-Funktionen, um gängige Verzerrungen zu vermeiden.
Das Framework wurde bereits erfolgreich eingesetzt, um hochwertige, unvoreingenommene Datensätze für Shared Tasks mit über hundert teilnehmenden Teams zu erstellen.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Areg... alle arxiv.org 04-15-2024
https://arxiv.org/pdf/2401.03946.pdfDomande più approfondite