In dieser Arbeit wird ein neuer Ansatz zur Informationsextraktion aus Tabellen, die Schema-gesteuerte Informationsextraktion, vorgestellt. Dabei wird ein menschlich erstelltes Schema verwendet, um Tabellen in strukturierte Datensätze umzuwandeln.
Um die Leistungsfähigkeit von Sprachmodellen bei dieser Aufgabe zu bewerten, wird ein neuer Benchmark, SCHEMA-TO-JSON, präsentiert. Dieser umfasst Tabellen aus vier verschiedenen Domänen (Maschinelles Lernen, Chemie, Materialwissenschaft, Webseiten) mit unterschiedlichen Textformaten (LaTeX, XML, CSV, HTML).
Die Experimente zeigen, dass proprietäre Sprachmodelle wie GPT-4 und code-davinci-002 über alle Domänen und Formate hinweg eine erstaunlich gute Leistung erzielen können, ohne spezifische Trainingsdaten zu benötigen. Offene Sprachmodelle wie CodeLlama-instruct-13B zeigen ebenfalls vielversprechende Ergebnisse, insbesondere in den besser repräsentierten Domänen. Darüber hinaus wird die Machbarkeit des Destillierens kompakter und kosteneffizienter Modelle demonstriert.
Die Studie zeigt, dass Sprachmodelle als flexible und leistungsfähige Werkzeuge für die Extraktion von Informationen aus Tabellen über verschiedene Formate und Domänen hinweg dienen können.
翻譯成其他語言
從原文內容
arxiv.org
深入探究