Core Concepts
Dieser Artikel präsentiert einen Ansatz zur Generierung und Manipulation von detaillierten mathematischen Herleitungen in großem Umfang, um die Verallgemeinerungsfähigkeit von Transformers bei mathematischen Reasoning-Problemen außerhalb der Verteilung zu evaluieren.
Abstract
Der Artikel beschreibt einen Rahmen zur Generierung und Manipulation von mathematischen Herleitungen in großem Umfang, um die Verallgemeinerungsfähigkeit von Transformers-Modellen bei mathematischen Reasoning-Aufgaben systematisch zu evaluieren.
Der Ansatz nutzt symbolische Motoren, um hochwertige mathematische Herleitungsschritte mit vielfältigen symbolischen Eigenschaften in großem Umfang zu erzeugen. Verschiedene Perturbationen wie Variablenumbenennung, Ausdrucksaustausch, Annotationsersetzung und Gleichungskonvertierung werden dann auf diese Herleitungen angewendet, um die Generalisierungsfähigkeit der Modelle auf Verteilungsverschiebungen zu testen.
Der Rahmen wird auf zwei Sequenzklassifikationsaufgaben angewendet, bei denen die Modelle lernen müssen, kohärente mathematische Herleitungen zu erkennen. Die Ergebnisse zeigen, dass die durchschnittliche In-Distribution-Leistung feinabgestimmter BERT-Modelle die von GPT-3.5 übertrifft und mit GPT-4 konkurriert. Allerdings können Perturbationen der Eingabelogik ihre Leistung um bis zu 80 F1-Punkte reduzieren. Dies deutet auf eine gemeinsame Schwäche von BERT und GPT hin, was die relative Unfähigkeit betrifft, indirekte Verweise auf mathematische Entitäten zu dekodieren.
Stats
Die durchschnittliche In-Distribution-Leistung feinabgestimmter BERT-Modelle übertrifft GPT-3.5 und konkurriert mit GPT-4.
Perturbationen der Eingabelogik können die Leistung der feinabgestimmten Modelle um bis zu 80 F1-Punkte reduzieren.
Quotes
"Perturbationen zu Eingabelogik können ihre Leistung um bis zu 80 F1-Punkte reduzieren."
"Dies deutet auf eine gemeinsame Schwäche von BERT und GPT hin, was die relative Unfähigkeit betrifft, indirekte Verweise auf mathematische Entitäten zu dekodieren."