Główne pojęcia
MATHSENSEI ist ein Tool-unterstütztes Großsprachmodell, das durch den Einsatz von externen Tools wie Bing-Websuche, Python-Ausführung und symbolische Gleichungslösung die Fähigkeiten von Großsprachmodellen zum mathematischen Schlussfolgern verbessert.
Streszczenie
Die Studie präsentiert MATHSENSEI, ein Tool-unterstütztes Großsprachmodell für mathematisches Schlussfolgern. MATHSENSEI nutzt verschiedene Module, um die Leistung von Großsprachmodellen bei komplexen mathematischen Aufgaben zu verbessern:
- Wissensabruf-Modul (KR): Extrahiert relevantes mathematisches Wissen aus einem Großsprachmodell.
- Bing-Websuche-Modul (BS): Nutzt die Bing-Websuche-API, um ähnliche Fragen und relevante Konzepte zu finden.
- Wolfram-Alpha-Modul (WA): Verwendet die Wolfram-Alpha-API, um symbolische mathematische Berechnungen durchzuführen.
- Python-Generator-Modul (PG): Generiert Python-Code, der mathematische Probleme unter Verwendung der sympy-Bibliothek löst.
- Code-Verfeinerungs-Modul (CR): Korrigiert Syntaxfehler im generierten Python-Code.
- Lösungsgenerator-Modul (SG): Kompiliert eine schrittweise Lösung basierend auf den Ergebnissen der vorherigen Module.
Die Autoren führen systematische Experimente durch, um die Wirksamkeit der einzelnen Module und ihrer Kombinationen auf verschiedenen mathematischen Datensätzen wie MATH, AQUA-RAT, GSM-8K und MMLU-Math zu untersuchen. Sie stellen fest, dass die Kombination von Modulen wie WA, PG und SG die Leistung auf komplexen mathematischen Datensätzen wie MATH deutlich verbessert, während der Nutzen für einfachere Aufgaben wie in GSM-8K und AQUA-RAT geringer ist. Die Ergebnisse zeigen, dass der Einsatz von Tools wie Wolfram Alpha und Python-Code-Generierung die Fähigkeiten von Großsprachmodellen zum mathematischen Schlussfolgern deutlich erweitern kann.
Statystyki
Die Kombination von WA + PG + SG (
) erreicht eine Genauigkeit von 47,6% auf dem MATH-Datensatz, was eine Verbesserung von 13,5% gegenüber gpt-3.5-turbo ( ) mit Chain-of-Thought-Prompting darstellt.
Auf Intermediate-Algebra-Problemen zeigt die gleiche Konfiguration eine Leistungssteigerung von +11,6% gegenüber GPT-4 (mit CoT-Prompting).
Für Precalculus hat GPT-4 (mit CoT-Prompting) eine Genauigkeit von 26,7%, die sich durch unsere WA + PG + SG (
) Konfiguration auf 28,9% verbessert.
Die Verbesserungen auf AQuA-RAT und MMLU-Math sind mit 2,4% bzw. 3,3% geringer, was zeigt, dass die Wirksamkeit abnimmt, je weniger externes Wissen erforderlich ist.
Cytaty
Keine relevanten Zitate gefunden.