toplogo
Sign In

ChroniclingAmericaQA: Ein großer Datensatz für Frage-Antwort-Aufgaben basierend auf historischen amerikanischen Zeitungsseiten


Core Concepts
Dieser Datensatz bietet eine große Sammlung von 485.000 Frage-Antwort-Paaren, die aus historischen amerikanischen Zeitungsseiten der Jahre 1800 bis 1920 erstellt wurden. Er dient als neue Benchmark für das Training und die Evaluierung von Frage-Antwort-Modellen auf historischen Texten.
Abstract
Der Datensatz ChroniclingAmericaQA wurde aus der Chronicling America-Sammlung historischer amerikanischer Zeitungsseiten erstellt. Er umfasst 485.000 Frage-Antwort-Paare, die über einen Zeitraum von 120 Jahren (1800-1920) generiert wurden. Der Datensatz bietet drei verschiedene Möglichkeiten, um Frage-Antwort-Modelle zu testen: Antworten auf Fragen aus rohen und verrauschten Inhalten, Antworten auf Fragen aus bereinigten, korrigierten Versionen der Inhalte sowie Antworten auf Fragen aus gescannten Bildern von Zeitungsseiten. Dies, zusammen mit der Tatsache, dass ChroniclingAmericaQA den längsten Zeitraum unter den verfügbaren Frage-Antwort-Datensätzen abdeckt, macht es zu einer einzigartigen und nützlichen Ressource. Der Datensatz wurde automatisch erstellt, um mit der Größe und Komplexität der historischen Dokumentensammlung umgehen zu können. Die Autoren verwendeten GPT 3.5 zur Korrektur des verrauschten OCR-Texts und einen generativen Modellansatz zur automatischen Fragenerstellung. Die Evaluierung des Datensatzes zeigt, dass die Leistung von Transformermodellen und großen Sprachmodellen (LLMs) auf historischen Texten deutlich schlechter ist als auf modernen Texten. Dies unterstreicht die Notwendigkeit, Modelle speziell auf historische Texte zu trainieren, um die Komplexität historischer Sprache und Inhalte zu bewältigen.
Stats
Die Leistung von BERT-base-SQuAD-ChroniclingAmericaQA auf korrigierten OCR-Absätzen beträgt 63,90% Exact Match und 69,92% F1-Wert. Die Leistung von LLaMA2 70B auf korrigierten OCR-Absätzen beträgt 5,30% Exact Match und 19,52% F1-Wert. Die Leistung aller Modelle sinkt deutlich, wenn rohe OCR-Absätze als Kontext verwendet werden, was die Notwendigkeit der Textbereinigung unterstreicht.
Quotes
"Dieser Datensatz bietet eine große Sammlung von 485.000 Frage-Antwort-Paaren, die aus historischen amerikanischen Zeitungsseiten der Jahre 1800 bis 1920 erstellt wurden." "Der Datensatz bietet drei verschiedene Möglichkeiten, um Frage-Antwort-Modelle zu testen: Antworten auf Fragen aus rohen und verrauschten Inhalten, Antworten auf Fragen aus bereinigten, korrigierten Versionen der Inhalte sowie Antworten auf Fragen aus gescannten Bildern von Zeitungsseiten."

Key Insights Distilled From

by Bhawna Pirya... at arxiv.org 03-27-2024

https://arxiv.org/pdf/2403.17859.pdf
ChroniclingAmericaQA

Deeper Inquiries

Wie können die Erkenntnisse aus diesem Datensatz genutzt werden, um die Leistung von Frage-Antwort-Modellen auf anderen historischen Textsammlungen zu verbessern?

Die Erkenntnisse aus dem ChroniclingAmericaQA-Datensatz können dazu genutzt werden, um die Leistung von Frage-Antwort-Modellen auf anderen historischen Textsammlungen zu verbessern, indem sie als Trainingsdaten dienen. Indem Modelle auf diesem spezifischen Datensatz trainiert werden, können sie lernen, mit den spezifischen Herausforderungen umzugehen, die historische Texte mit sich bringen, wie z.B. die Qualität von OCR-Texten, die Verarbeitung von archaischer Sprache und die Berücksichtigung des historischen Kontexts. Durch die Feinabstimmung auf diesen Datensatz können Modelle besser auf die Besonderheiten historischer Dokumente eingestellt werden und somit ihre Leistungsfähigkeit bei der Beantwortung von Fragen zu historischen Texten verbessern.

Welche zusätzlichen Merkmale oder Kontextinformationen könnten in zukünftigen Versionen des Datensatzes enthalten sein, um die Modellleistung weiter zu steigern?

In zukünftigen Versionen des Datensatzes könnten zusätzliche Merkmale oder Kontextinformationen hinzugefügt werden, um die Modellleistung weiter zu steigern. Dazu könnten gehören: Verbesserung der Qualität der OCR-Texte: Durch eine noch genauere Korrektur der OCR-Texte könnte die Datenqualität weiter verbessert werden. Einbeziehung von Metadaten: Die Einbeziehung von Metadaten wie Veröffentlichungsdatum, Zeitungstitel, geografische Informationen usw. könnte den Modellen helfen, den historischen Kontext besser zu verstehen und genauere Antworten zu generieren. Berücksichtigung von Textstruktur: Die Berücksichtigung der Textstruktur, z.B. die Unterscheidung zwischen Hauptartikeln, Anzeigen, redaktionellen Inhalten usw., könnte den Modellen helfen, relevantere Antworten zu generieren. Einbeziehung von Bildinformationen: Die Einbeziehung von Bildinformationen aus den gescannten Zeitungsseiten könnte den Modellen helfen, zusätzlichen Kontext zu verstehen und bessere Antworten zu generieren.

Wie können die Erkenntnisse aus diesem Datensatz dazu beitragen, die Verarbeitung und Analyse von historischen Dokumenten in anderen Anwendungsbereichen wie der Geschichtswissenschaft oder Kulturerbeforschung zu verbessern?

Die Erkenntnisse aus dem ChroniclingAmericaQA-Datensatz können dazu beitragen, die Verarbeitung und Analyse von historischen Dokumenten in anderen Anwendungsbereichen wie der Geschichtswissenschaft oder Kulturerbeforschung zu verbessern, indem sie fortschrittliche Frage-Antwort-Modelle trainieren, die speziell auf historische Texte zugeschnitten sind. Diese Modelle können dazu beitragen, historische Dokumente effizienter zu durchsuchen, relevante Informationen zu extrahieren und komplexe Fragen zu beantworten. Durch die Anwendung dieser Modelle können Forscher und Wissenschaftler in der Geschichtswissenschaft und Kulturerbeforschung einen tieferen Einblick in historische Texte gewinnen, neue Erkenntnisse gewinnen und bisher unentdeckte Zusammenhänge aufdecken. Dies kann dazu beitragen, das Verständnis vergangener Ereignisse und kultureller Entwicklungen zu vertiefen und die Forschung in diesen Bereichen voranzutreiben.
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star