Core Concepts
Durch den Einsatz von Large Language Models (LLMs) als automatische Datengeneratoren können komplexe Frage-Antwort-Paare für Chartbilder generiert werden, um die Reasoning-Fähigkeiten von Chart VQA-Modellen zu verbessern. Der Schlüsselinnovation liegt in der Synthesize Step-by-Step-Strategie, bei der der LLM-basierte Datengenerator lernt, komplexe Fragen in schrittweise Teilfragen (Begründungen) zu zerlegen, die dann unter Verwendung externer Tools wie Python zur endgültigen Antwort abgeleitet werden.
Abstract
Die Studie befasst sich mit der Verbesserung der Reasoning-Fähigkeiten von Chart VQA-Modellen durch den Einsatz von LLMs als automatische Datengeneratoren. Bestehende Chart VQA-Modelle haben Schwierigkeiten mit komplexen Reasoning-Fragen, da die vorhandenen Datensätze nur wenige solcher Fragen enthalten.
Um dies zu adressieren, wird ein LLM-basierter Datengenerator entwickelt, der in der Lage ist, komplexe Frage-Antwort-Paare zu generieren. Der Schlüssel liegt in der Synthesize Step-by-Step-Strategie, bei der der Generator lernt, komplexe Fragen in schrittweise Teilfragen (Begründungen) zu zerlegen, die dann unter Verwendung externer Tools wie Python zur endgültigen Antwort abgeleitet werden.
Zunächst wird ein Template-basierter Trainingsdatensatz generiert, um den LLM-Datengenerator zu trainieren. Anschließend wird der Generator verwendet, um Frage-Antwort-Paare für die Trainingsbilder zu erstellen. Diese LLM-generierten Daten, LAMENDA genannt, werden dann verwendet, um die Downstream-Chart VQA-Modelle zu trainieren.
Die Experimente zeigen, dass der Einsatz von LAMENDA zu einer signifikanten Verbesserung der Leistung auf den ChartQA- und PlotQA-Datensätzen führt, insbesondere bei den menschlich geschriebenen Fragen, die komplexes Reasoning erfordern. Die Genauigkeit auf den menschlich geschriebenen Fragen im ChartQA-Datensatz wird von 38% auf 54% verbessert. Die Ergebnisse unterstreichen das Potenzial synthetischer Daten und ermutigen zu weiteren Untersuchungen des Einsatzes von LLMs für reasoning-intensive Aufgaben.
Stats
"Was ist der Durchschnitt der beiden größten Kategorien?" - 16,5%
"Was ist der Wert für 2002?" - 16,2%
"Was ist der Wert für 2003?" - 16,7%
Quotes
"Unser LLM-basierter Datengenerator lernt, komplexe Fragen in schrittweise Teilfragen (Begründungen) zu zerlegen, die dann unter Verwendung externer Tools wie Python zur endgültigen Antwort abgeleitet werden."
"Der Einsatz von LAMENDA führt zu einer signifikanten Verbesserung der Leistung auf den ChartQA- und PlotQA-Datensätzen, insbesondere bei den menschlich geschriebenen Fragen, die komplexes Reasoning erfordern."