Conceitos Básicos
Große Sprachmodelle können kosteneffizient Informationen aus Tabellen extrahieren, indem sie einem menschlich erstellten Schema folgen.
Resumo
In dieser Arbeit wird ein neuer Ansatz zur Informationsextraktion aus Tabellen, die Schema-gesteuerte Informationsextraktion, vorgestellt. Dabei wird ein menschlich erstelltes Schema verwendet, um Tabellen in strukturierte Datensätze umzuwandeln.
Um die Leistungsfähigkeit von Sprachmodellen bei dieser Aufgabe zu bewerten, wird ein neuer Benchmark, SCHEMA-TO-JSON, präsentiert. Dieser umfasst Tabellen aus vier verschiedenen Domänen (Maschinelles Lernen, Chemie, Materialwissenschaft, Webseiten) mit unterschiedlichen Textformaten (LaTeX, XML, CSV, HTML).
Die Experimente zeigen, dass proprietäre Sprachmodelle wie GPT-4 und code-davinci-002 über alle Domänen und Formate hinweg eine erstaunlich gute Leistung erzielen können, ohne spezifische Trainingsdaten zu benötigen. Offene Sprachmodelle wie CodeLlama-instruct-13B zeigen ebenfalls vielversprechende Ergebnisse, insbesondere in den besser repräsentierten Domänen. Darüber hinaus wird die Machbarkeit des Destillierens kompakter und kosteneffizienter Modelle demonstriert.
Die Studie zeigt, dass Sprachmodelle als flexible und leistungsfähige Werkzeuge für die Extraktion von Informationen aus Tabellen über verschiedene Formate und Domänen hinweg dienen können.
Estatísticas
"95.7% F1-Score für Named Entity Recognition auf dem CoNLL-2003 Datensatz mit dem ELMo-Modell"
"92.4% F1-Score für Named Entity Recognition auf dem CoNLL-2003 Testdatensatz mit dem BERT base-Modell"
Citações
"Vast quantities of data are locked away in tables found in scientific literature, webpages, and more."
"Prior work on extracting structured data from tables has focused on developing custom pipelines for each new table format or domain."