Core Concepts
Sprachmodelle berechnen Merkmale in der Gegenwart, die für zukünftige Ausgaben relevant sind, ohne dass dies explizit für die Zukunft geplant wird. Stattdessen ergeben sich diese "Brotkrumen" aus den Merkmalen, die für die aktuelle Vorhersage am nützlichsten sind.
Abstract
Der Artikel untersucht, ob Sprachmodelle wie Transformer "vorausdenken" und Informationen für zukünftige Tokens berechnen, oder ob die Relevanz für die Zukunft sich eher als "Brotkrumen" aus den Merkmalen ergibt, die für die aktuelle Vorhersage am nützlichsten sind.
Es werden zwei mögliche Erklärungen diskutiert:
Vorcaching: Das Modell berechnet absichtlich Merkmale, die für die Zukunft nützlich sein könnten, auch wenn sie für die aktuelle Vorhersage irrelevant sind.
Brotkrumen: Die Merkmale, die am meisten für die aktuelle Vorhersage nützen, sind dieselben, die auch für zukünftige Vorhersagen am nützlichsten sind. Wenn das Modell den aktuellen Durchlauf durchführt, hinterlässt es "Brotkrumen", die dann für zukünftige Durchläufe genutzt werden können.
Um diese beiden Hypothesen zu unterscheiden, wird ein "myopisches" Trainingsverfahren eingeführt, das Gradienten von zukünftigen Verlusten zu früheren Zeitschritten nicht berücksichtigt. Der Unterschied in der Leistung zwischen dem normalen und dem myopischen Modell gibt dann Aufschluss darüber, wie viel Vorcaching tatsächlich stattfindet.
In synthetischen Experimenten zeigt sich deutlich, dass Transformer-Modelle Vorcaching betreiben, wenn dies für die Aufgabe erforderlich ist. In natürlichen Sprachmodellen (GPT-2) ist der Effekt jedoch eher gering, was die Brotkrumen-Hypothese stützt.
Stats
Die Leistung des myopischen Modells ist deutlich schlechter als die des normalen Modells in den synthetischen Experimenten, was auf signifikantes Vorcaching hindeutet.
In den Experimenten mit natürlichen Sprachmodellen ist der Unterschied zwischen normalem und myopischem Modell eher gering, was darauf hindeutet, dass hier weniger Vorcaching stattfindet.
Quotes
Keine relevanten Zitate identifiziert.