Entdeckung der Dynamik von Aufmerksamkeit und mehrschichtigen Transformatoren
Die Arbeit präsentiert ein neuartiges mathematisches Rahmenwerk namens JoMA, das die gemeinsame Dynamik von selbstaufmerksamem Lernen und mehrschichtigen MLP-Schichten in Transformator-Architekturen charakterisiert. JoMA zeigt, wie die Aufmerksamkeit zunächst spärlich wird, um auf die wichtigsten Merkmale zu fokussieren, und dann dichter wird, um weniger wichtige Merkmale zu lernen. Dieses Verhalten ermöglicht es den Transformatoren, hierarchische Konzepte in den Eingabedaten zu erlernen.