Die Studie untersucht den Aufmerksamkeitsmechanismus in Transformern durch die Linse der Austauschbarkeit und latenter Variablenmodelle.
Zunächst wird gezeigt, dass die Austauschbarkeit der Eingabesequenz die Existenz einer latenten Variablen induziert, die als "Konzept" der Eingabe interpretiert werden kann. Die latente Posterior-Verteilung dieser latenten Variablen wird als eine minimale und hinreichende Darstellung der Eingabe identifiziert, die eine zentrale Rolle bei der Vorhersage von Zielgrößen und dem Lösen von Downstream-Aufgaben spielt.
Anschließend wird bewiesen, dass der Aufmerksamkeitsmechanismus diese latente Posterior-Verteilung bis auf einen Approximationsfehler, der mit der Eingabelänge abnimmt, inferiert. Insbesondere wird gezeigt, dass eine spezifische Parametrisierung des Aufmerksamkeitsmechanismus auf der Kernel-bedingten Mittelwerteinbettung basiert und die bedingte Erwartung des Wertes gegeben den Schlüssel charakterisiert.
Schließlich wird gezeigt, dass sowohl überwachte als auch selbstüberwachte Lernziele es ermöglichen, den gewünschten Parameter des Aufmerksamkeitsmechanismus bis auf einen Verallgemeinerungsfehler zu lernen, der unabhängig von der Eingabelänge ist. Insbesondere im selbstüberwachten Szenario wird eine Konditionszahl identifiziert, die für das Lösen von Downstream-Aufgaben entscheidend ist.
Zusammengefasst liefert die theoretische Analyse eine vollständige Charakterisierung des Aufmerksamkeitsmechanismus als eine "Graubox"-Methode, die die handgeferchte Architektur und den lernbaren Parameter mit beweisbaren Garantien vereint.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Yufeng Zhang... ב- arxiv.org 04-02-2024
https://arxiv.org/pdf/2212.14852.pdfשאלות מעמיקות