Das CHisIEC-Korpus wurde entwickelt, um die Aufgaben der Namensnennung und Beziehungsextraktion in alten chinesischen historischen Dokumenten zu unterstützen. Es umfasst Texte aus 13 Dynastien, die einen Zeitraum von über 1830 Jahren abdecken, und spiegelt damit die umfangreiche zeitliche Spanne und die Heterogenität der Texte in alten chinesischen historischen Dokumenten wider.
Das Korpus definiert vier Entitätstypen (Person, Ort, Amt, Buch) und zwölf Beziehungstypen (z.B. politische Unterstützung, Amtsinhabe, Kollegialität, Vorgesetzter-Untergebener-Beziehung, Angriff, Verteidigung, Verwaltung, Ankunft, Geburtsort, Eltern, Bruder, Alias), die in den Texten annotiert wurden. Insgesamt umfasst das Korpus 14.194 Entitäten und 8.609 Beziehungen.
Um die Robustheit und Vielseitigkeit des Datensatzes zu demonstrieren, wurden umfangreiche Experimente mit Modellen unterschiedlicher Größen und Paradigmen durchgeführt, einschließlich vortrainierten Sprachmodellen (PLMs) und großen Sprachmodellen (LLMs). Die Ergebnisse zeigen, dass PLMs bei den Aufgaben der Namensnennung und Beziehungsextraktion in alten chinesischen historischen Dokumenten besser abschneiden als LLMs, was auf die Bedeutung der Anpassung an die Domäne hindeutet.
翻譯成其他語言
從原文內容
arxiv.org
深入探究