In dieser Arbeit wird ein neuer Ansatz zur Informationsextraktion aus Tabellen, die Schema-gesteuerte Informationsextraktion, vorgestellt. Dabei wird ein menschlich erstelltes Schema verwendet, um Tabellen in strukturierte Datensätze umzuwandeln.
Um die Leistungsfähigkeit von Sprachmodellen bei dieser Aufgabe zu bewerten, wird ein neuer Benchmark, SCHEMA-TO-JSON, präsentiert. Dieser umfasst Tabellen aus vier verschiedenen Domänen (Maschinelles Lernen, Chemie, Materialwissenschaft, Webseiten) mit unterschiedlichen Textformaten (LaTeX, XML, CSV, HTML).
Die Experimente zeigen, dass proprietäre Sprachmodelle wie GPT-4 und code-davinci-002 über alle Domänen und Formate hinweg eine erstaunlich gute Leistung erzielen können, ohne spezifische Trainingsdaten zu benötigen. Offene Sprachmodelle wie CodeLlama-instruct-13B zeigen ebenfalls vielversprechende Ergebnisse, insbesondere in den besser repräsentierten Domänen. Darüber hinaus wird die Machbarkeit des Destillierens kompakter und kosteneffizienter Modelle demonstriert.
Die Studie zeigt, dass Sprachmodelle als flexible und leistungsfähige Werkzeuge für die Extraktion von Informationen aus Tabellen über verschiedene Formate und Domänen hinweg dienen können.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Fan Bai,Junm... a las arxiv.org 03-14-2024
https://arxiv.org/pdf/2305.14336.pdfConsultas más profundas