Core Concepts
Die direkte Schnittstelle zwischen Eingabe und Speicher über Aufmerksamkeit ist suboptimal. Durch Filterung des Eingabesignals vor der Kommunikation mit dem Speicher können erhebliche Leistungssteigerungen erzielt werden.
Abstract
In dieser Arbeit untersuchen die Autoren Transformer-Modelle, die externen, lernbaren Speicher nutzen, um die quadratische Komplexität der Aufmerksamkeitsberechnung zu reduzieren. Sie stellen fest, dass die direkte Schnittstelle zwischen Eingabe und Speicher über Aufmerksamkeit ineffizient ist, da der Speicher dazu tendiert, zu einem einzigen oder einer kleinen Anzahl von Punkten zu konvergieren.
Um dieses "Speicherabbau"-Phänomen zu überwinden, schlagen die Autoren zwei Techniken vor:
Filterung der Eingabe vor der Aufmerksamkeitsberechnung mit dem Speicher, um nur das relevante Signal beizubehalten.
Ersetzung des festen Normalisierungsterms in der Aufmerksamkeitsberechnung durch einen lernbaren, logarithmischen Skalierungsparameter.
Die Experimente auf Teilaufgaben der Long Range Arena zeigen, dass diese Methoden zu deutlichen Leistungssteigerungen führen. Die Autoren finden auch, dass selbst Modelle mit nur einer Speicherzelle die Standard-Transformer-Architektur übertreffen. Dies unterstreicht die Ineffizienz der traditionellen direkten Eingabe-Speicher-Schnittstelle und legt nahe, dass Vorfilterung der Eingabe vor der Interaktion mit dem Speicher zu erheblichen Verbesserungen führen kann.
Stats
Die Aufmerksamkeitslogits der Eingabe-Speicher-Aufmerksamkeitsmatrix bleiben während des Trainings relativ hochentropisch - die Aufmerksamkeitswerte sind fast gleichmäßig verteilt, und die resultierenden Wertevektoren sind für alle Eingabetokens ähnlich.
Quotes
"Unsere Arbeit zeigt bemerkenswerte Leistungsverbesserungen bei verschiedenen Klassifizierungsaufgaben durch unsere vorgeschlagenen Methoden."
"Diese Ergebnisse heben die Ineffizienz der traditionellen direkten Eingabe-Speicher-Schnittstelle durch Aufmerksamkeit hervor und legen nahe, dass das Vorfiltern von Eingaben vor der Interaktion mit dem Speicher zu erheblichen Gewinnen führen kann."