Dieser Artikel beschreibt die Erstellung eines neuartigen Instruktionsdatensatzes namens "ChartInstruct", der darauf abzielt, die Leistung von Sprachmodellen in Bezug auf Chartverständnis und -reasoning zu verbessern.
Der Datensatz wurde durch Sammeln von über 70.000 realen Diagrammen aus verschiedenen Online-Quellen und anschließender Generierung von 191.000 Instruktionen zu einer Vielzahl von Chartanalyseaufgaben erstellt. Die Instruktionen decken ein breites Spektrum an Aufgaben ab, darunter Zusammenfassung, Frage-Antwort, Faktenüberprüfung und neuartige Reasoning-Aufgaben, die von Sprachmodellen generiert wurden.
Basierend auf diesem Instruktionsdatensatz wurden zwei spezielle Modellarchitekturen entwickelt: ein End-to-End-System, das einen auf Diagramme spezialisierten Bildenkoder mit einem Sprachmodell kombiniert, sowie ein Pipeline-System, das zunächst die Diagrammdaten extrahiert und dann an das Sprachmodell übergibt. Diese Modelle zeigen in Experimenten auf vier etablierten Benchmark-Datensätzen für Chartanalyse-Aufgaben state-of-the-art-Leistungen und übertreffen die bisherigen Methoden deutlich. Darüber hinaus belegt eine umfassende menschliche Bewertung, dass die Instruktionsbasierung die Modelle in die Lage versetzt, eine breite Palette neuer, praxisrelevanter Chartanalyse-Aufgaben zu bewältigen.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문