toplogo
Logg Inn

Ein umfassendes Informationsextraktionskorpus für die alte chinesische Geschichte


Grunnleggende konsepter
Das CHisIEC-Korpus ist ein sorgfältig kuratierter Datensatz, der entwickelt wurde, um die Aufgaben der Namensnennung und Beziehungsextraktion in alten chinesischen historischen Dokumenten zu unterstützen. Es umfasst Texte aus 13 Dynastien über einen Zeitraum von mehr als 1830 Jahren und bietet damit eine einzigartige Ressource für die Forschung in diesem Bereich.
Sammendrag

Das CHisIEC-Korpus wurde entwickelt, um die Aufgaben der Namensnennung und Beziehungsextraktion in alten chinesischen historischen Dokumenten zu unterstützen. Es umfasst Texte aus 13 Dynastien, die einen Zeitraum von über 1830 Jahren abdecken, und spiegelt damit die umfangreiche zeitliche Spanne und die Heterogenität der Texte in alten chinesischen historischen Dokumenten wider.

Das Korpus definiert vier Entitätstypen (Person, Ort, Amt, Buch) und zwölf Beziehungstypen (z.B. politische Unterstützung, Amtsinhabe, Kollegialität, Vorgesetzter-Untergebener-Beziehung, Angriff, Verteidigung, Verwaltung, Ankunft, Geburtsort, Eltern, Bruder, Alias), die in den Texten annotiert wurden. Insgesamt umfasst das Korpus 14.194 Entitäten und 8.609 Beziehungen.

Um die Robustheit und Vielseitigkeit des Datensatzes zu demonstrieren, wurden umfangreiche Experimente mit Modellen unterschiedlicher Größen und Paradigmen durchgeführt, einschließlich vortrainierten Sprachmodellen (PLMs) und großen Sprachmodellen (LLMs). Die Ergebnisse zeigen, dass PLMs bei den Aufgaben der Namensnennung und Beziehungsextraktion in alten chinesischen historischen Dokumenten besser abschneiden als LLMs, was auf die Bedeutung der Anpassung an die Domäne hindeutet.

edit_icon

Customize Summary

edit_icon

Rewrite with AI

edit_icon

Generate Citations

translate_icon

Translate Source

visual_icon

Generate MindMap

visit_icon

Visit Source

Statistikk
永泰元年,吐蕃请和,诏宰相元载、杜鸿渐与虏使者同盟。(Im ersten Jahr der Yongtai-Ära bat Tubo um Frieden, und der Kaiser befahl den Kanzlern Yuan Zai und Du Hongjian, ein Bündnis mit den feindlichen Gesandten zu schließen.) 其年闰七月晦,李筠、【何福进】相率杀契丹帅【满达勒】。(Am 7. Tag des Schaltmonats dieses Jahres töteten Li Yun und He Fujin gemeinsam den Khitan-Kommandanten Mandalay.)
Sitater
"永泰元年,吐蕃请和,诏宰相元载、杜鸿渐与虏使者同盟。" "其年闰七月晦,李筠、【何福进】相率杀契丹帅【满达勒】。"

Viktige innsikter hentet fra

by Xuemei Tang,... klokken arxiv.org 03-25-2024

https://arxiv.org/pdf/2403.15088.pdf
CHisIEC

Dypere Spørsmål

Wie können die Erkenntnisse aus diesem Korpus dazu dienen, die Beziehungen zwischen verschiedenen historischen Figuren und Ereignissen in der alten chinesischen Geschichte besser zu verstehen?

Die Erkenntnisse aus dem CHisIEC-Korpus können dazu beitragen, die Beziehungen zwischen verschiedenen historischen Figuren und Ereignissen in der alten chinesischen Geschichte besser zu verstehen, indem sie eine strukturierte und umfassende Analyse ermöglichen. Durch die Annotierung von Entitäten und Beziehungen in historischen Texten aus verschiedenen Epochen können Muster, Verbindungen und Interaktionen zwischen Personen, Orten, offiziellen Positionen und Büchern identifiziert werden. Dies ermöglicht es Forschern, komplexe Netzwerke von historischen Figuren und Ereignissen zu rekonstruieren und ihre Beziehungen zueinander zu analysieren. Darüber hinaus können die annotierten Daten dazu beitragen, historische Narrative zu rekonstruieren und ein tieferes Verständnis für die politischen, sozialen und kulturellen Dynamiken in der alten chinesischen Geschichte zu entwickeln.

Welche Herausforderungen ergeben sich bei der Anwendung moderner Informationsextraktionsmodelle auf Texte aus so weit auseinanderliegenden historischen Epochen, und wie können diese Herausforderungen überwunden werden?

Die Anwendung moderner Informationsextraktionsmodelle auf Texte aus so weit auseinanderliegenden historischen Epochen kann aufgrund von sprachlicher Heterogenität, unterschiedlichen Schreibstilen, veralteten Vokabularien und kulturellen Unterschieden Herausforderungen mit sich bringen. Diese Modelle müssen in der Lage sein, mit der Vielfalt und Komplexität der historischen Texte umzugehen, um genaue und konsistente Ergebnisse zu erzielen. Eine Möglichkeit, diese Herausforderungen zu überwinden, besteht darin, die Modelle mit ausreichend Trainingsdaten aus verschiedenen Epochen zu versorgen, um ihre Fähigkeit zur Erfassung von historischen Kontexten zu verbessern. Darüber hinaus können spezifische Anpassungen an den Modellen vorgenommen werden, um die sprachlichen Besonderheiten und kulturellen Nuancen der historischen Texte besser zu berücksichtigen.

Inwiefern können die in diesem Korpus annotierten Entitäten und Beziehungen dazu beitragen, ein umfassenderes Verständnis der politischen, sozialen und kulturellen Dynamiken in der alten chinesischen Geschichte zu entwickeln?

Die annotierten Entitäten und Beziehungen in diesem Korpus können dazu beitragen, ein umfassenderes Verständnis der politischen, sozialen und kulturellen Dynamiken in der alten chinesischen Geschichte zu entwickeln, indem sie Einblicke in die Beziehungen zwischen historischen Figuren, politischen Institutionen, geografischen Orten und kulturellen Artefakten bieten. Durch die Analyse dieser Entitäten und Beziehungen können Forscher die Machtstrukturen, politischen Allianzen, territorialen Konflikte und kulturellen Entwicklungen in verschiedenen Epochen der chinesischen Geschichte besser verstehen. Darüber hinaus können die annotierten Daten dazu beitragen, historische Ereignisse zu kontextualisieren, historische Narrative zu rekonstruieren und die komplexen Interaktionen zwischen verschiedenen Akteuren in der Geschichte Chinas zu beleuchten.
0
star