Core Concepts
gTBLS ist ein zweistufiger Ansatz zur effizienten Umwandlung von unstrukturiertem Text in strukturierte Tabellen. In der ersten Phase wird die Tabellenstruktur (Zeilen- und Spaltenkopfzeilen) aus dem Text abgeleitet. In der zweiten Phase werden die generierten Kopfzeilen verwendet, um Fragen zu formulieren, die dann von einem Sprachmodell beantwortet werden, um den Tabelleninhalt zu generieren.
Abstract
Der Artikel stellt einen neuartigen zweistufigen Ansatz namens Generative Tables (gTBLS) vor, um unstrukturierte Textinhalte in strukturierte Tabellen umzuwandeln.
In der ersten Phase wird die Tabellenstruktur, d.h. die Zeilen- und Spaltenkopfzeilen, aus dem Ausgangstext abgeleitet. Dazu wird ein Encoder-Decoder-Sprachmodell verwendet, das trainiert wird, eine Sequenz von Kopfzeilen autoregressiv zu generieren.
In der zweiten Phase werden die generierten Kopfzeilen genutzt, um Fragen zu formulieren, die dann von einem weiteren Sprachmodell beantwortet werden, um den Tabelleninhalt zu generieren. Dieser Ansatz stellt sicher, dass alle erzeugten Tabellen syntaktisch korrekt sind, da die Zellenzahl in jeder Zeile und Spalte konsistent ist.
gTBLS bietet mehrere Vorteile gegenüber bisherigen Ansätzen:
Bis zu 57% geringere Fehlerrate durch die Sicherstellung syntaktisch korrekter Tabellen
Bis zu 20% Verbesserung der BERTScore-Werte bei der Tabellengenerierung im Vergleich zum Stand der Technik
Möglichkeit, große, instruktionsbasierte Sprachmodelle in einer Zero-Shot-Konfiguration für die Inhaltsgenerierung zu nutzen
Einfache Erweiterung bestehender Tabellen durch zusätzliche Frage-Antwort-Paare, ohne die gesamte Tabelle neu zu generieren
Stats
"Generative Tables (gTBLS) verbessert den vorherigen Stand der Technik um bis zu 20% in BERTScore bei der Tabellengenerierungsaufgabe."
"gTBLS erzielt eine Fehlerreduktion von bis zu 57% im Vergleich zu einem sequenzbasierten Ansatz ohne Beschränkungen."
Quotes
"Durch die Aufteilung der automatischen Tabellengenerierung in Tabellenstruktur-Konstruktion und Inhalts-Generierung stellt gTBLS sicher, dass alle generierten Tabellen syntaktisch korrekt sind (gleiche Anzahl von Zellen in Zeilen und Spalten)."
"Durch die Reformulierung der Tabellengenerierung als Fragebeantwortung kann neue Evidenz in bestehende Tabellen aufgenommen werden, ohne die gesamte Tabelle neu zu generieren."