Core Concepts
Durch den Einsatz moderner Code-LLMs und multimodaler LLMs kann die Effizienz bei der Erstellung wissenschaftlicher Datenvisualisierungen deutlich gesteigert werden.
Abstract
In dieser Studie wird MatPlotAgent, ein modellunabhängiger LLM-basierter Agenten-Rahmen, vorgestellt, der entwickelt wurde, um Aufgaben der wissenschaftlichen Datenvisualisierung zu automatisieren. MatPlotAgent besteht aus drei Kernmodulen:
Verständnis der Benutzeranfrage: Dieses Modul interpretiert und verfeinert die Benutzeranfrage, um detaillierte Anweisungen zu erstellen, die LLMs leicht befolgen können.
Code-Generierung mit iterativem Debugging: Dieses Modul generiert den Visualisierungscode unter Verwendung geeigneter Bibliotheken und Funktionen und nutzt einen Selbstdebugger-Mechanismus, um Fehler im Code zu identifizieren und zu korrigieren.
Visuelles Feedback-Mechanismus: Dieses Modul verwendet multimodale LLMs, um Vorschläge zur Verbesserung der Visualisierung zu generieren und an das Code-Generierungsmodul zurückzugeben.
Um den Mangel an Benchmarks in diesem Bereich zu beheben, wird MatPlotBench, ein hochwertiger Benchmark mit 100 manuell überprüften Testfällen, vorgestellt. Darüber hinaus wird ein Bewertungsansatz eingeführt, der GPT-4V für die automatische Auswertung nutzt. Die Ergebnisse zeigen, dass MatPlotAgent die Leistung verschiedener LLMs, einschließlich kommerzieller und Open-Source-Modelle, verbessern kann.
Stats
"Mit großen Parametern und umfangreichen Trainingsdaten haben LLMs bemerkenswerte Fähigkeiten in einer Vielzahl komplexer Aufgaben wie Reasoning, Mathematik und Programmierung gezeigt."
"MatPlotBench enthält 100 sorgfältig handgefertigte Testbeispiele, von denen jedes eine Benutzeranfrage, die entsprechenden Eingabedaten und eine von Experten verifizierte Referenzvisualisierung enthält."
"Die automatische Bewertung mit GPT-4V zeigt eine starke Korrelation mit den von Menschen vergebenen Bewertungen."
Quotes
"Mit großen Parametern und umfangreichen Trainingsdaten haben LLMs bemerkenswerte Fähigkeiten in einer Vielzahl komplexer Aufgaben wie Reasoning, Mathematik und Programmierung gezeigt."
"MatPlotBench enthält 100 sorgfältig handgefertigte Testbeispiele, von denen jedes eine Benutzeranfrage, die entsprechenden Eingabedaten und eine von Experten verifizierte Referenzvisualisierung enthält."
"Die automatische Bewertung mit GPT-4V zeigt eine starke Korrelation mit den von Menschen vergebenen Bewertungen."