Der Artikel untersucht, ob Sprachmodelle wie Transformer "vorausdenken" und Informationen für zukünftige Tokens berechnen, oder ob die Relevanz für die Zukunft sich eher als "Brotkrumen" aus den Merkmalen ergibt, die für die aktuelle Vorhersage am nützlichsten sind.
Es werden zwei mögliche Erklärungen diskutiert:
Vorcaching: Das Modell berechnet absichtlich Merkmale, die für die Zukunft nützlich sein könnten, auch wenn sie für die aktuelle Vorhersage irrelevant sind.
Brotkrumen: Die Merkmale, die am meisten für die aktuelle Vorhersage nützen, sind dieselben, die auch für zukünftige Vorhersagen am nützlichsten sind. Wenn das Modell den aktuellen Durchlauf durchführt, hinterlässt es "Brotkrumen", die dann für zukünftige Durchläufe genutzt werden können.
Um diese beiden Hypothesen zu unterscheiden, wird ein "myopisches" Trainingsverfahren eingeführt, das Gradienten von zukünftigen Verlusten zu früheren Zeitschritten nicht berücksichtigt. Der Unterschied in der Leistung zwischen dem normalen und dem myopischen Modell gibt dann Aufschluss darüber, wie viel Vorcaching tatsächlich stattfindet.
In synthetischen Experimenten zeigt sich deutlich, dass Transformer-Modelle Vorcaching betreiben, wenn dies für die Aufgabe erforderlich ist. In natürlichen Sprachmodellen (GPT-2) ist der Effekt jedoch eher gering, was die Brotkrumen-Hypothese stützt.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問