Die Studie zeigt, dass Transformers in der Lage sind, den größten gemeinsamen Teiler (GGT) zweier positiver ganzer Zahlen zu berechnen, indem sie eine Liste von Zahlen lernen, die Produkte von Teilern der Basis und kleinen Primzahlen sind. Während des Trainings lernt das Modell diese Liste schrittweise, indem es zunächst die Teilbarkeit durch Produkte von Teilern der Basis und dann nach und nach durch kleine Primzahlen lernt.
Die Leistung des Modells hängt stark von der Wahl der Basis ab. Composite-Basen wie 30, 210 oder 420 führen zu den besten Ergebnissen, da sie mehr kleine Primzahlen enthalten, die das Modell lernen kann. Die Leistung kann weiter verbessert werden, indem man das Modell mit einer log-uniformen Verteilung der Operanden und Ergebnisse trainiert, anstatt mit einer uniformen Verteilung. Dies führt dazu, dass das Modell bis zu 91 der 100 kleinsten GGT korrekt vorhersagt.
Interessanterweise bricht die Erklärbarkeit des Modells teilweise zusammen, wenn es mit einer gleichmäßigen Verteilung der Ergebnisse trainiert wird. Stattdessen lernt es, die Eingabepaare in Klassen von Vielfachen von Teilern der Basis einzuteilen und für jede Klasse einen anderen, aber konsistenten Wert vorherzusagen. Insgesamt zeigen die Ergebnisse, dass Transformers in der Lage sind, exakte mathematische Berechnungen wie die GGT-Berechnung zu erlernen, und dass ein tieferes Verständnis ihrer Funktionsweise durch geeignete Experimente möglich ist.
To Another Language
from source content
arxiv.org
Djupare frågor