Großangelegte Schema-basierte Informationsextraktions-Korpus IEPILE: Erschließung eines umfassenden Datensatzes
IEPILE, ein umfassender zweisprachiger (Englisch und Chinesisch) Instruktions-Korpus für Informationsextraktion mit ca. 0,32 Milliarden Token, wurde durch Sammeln und Bereinigen von 33 bestehenden Datensätzen sowie Einführung einer Schema-basierten Instruktionsgenerierung erstellt. Die Verwendung von IEPILE verbessert die Leistung von Großsprachmodellen bei Informationsextraktionsaufgaben, insbesondere in Bezug auf Zero-Shot-Generalisierung.