Core Concepts
FIRE verbessert die Generalisierung von Transformern auf längere Kontexte durch funktionale relative Positionscodierung.
Abstract
Abstract:
Transformer haben Schwierigkeiten mit längeren Eingaben als beim Training.
FIRE verwendet funktionale relative Positionscodierung für bessere Generalisierung.
Einführung:
Transformer-basierte Sprachmodelle haben Null-Schuss-Leistung gezeigt.
Modelle verlieren schnell an Genauigkeit bei längeren Eingaben.
Positionale Codierungen und Längengeneralisierung:
Absolute Positional Encoding (APE) und Relative Positional Encoding (RPE) werden verglichen.
FIRE verwendet progressive Interpolation für bessere Generalisierung.
Methodik:
FIRE nutzt eine lernbare Funktion zur Zuordnung von Eingabepositionen zu Verzerrungen.
Progressive Interpolation normalisiert die Distanz zwischen Abfragen und Schlüsseln.
Experimente:
FIRE zeigt starke Leistung bei der Generalisierung auf lange Kontexte.
Vergleiche mit anderen Positionscodierungsansätzen zeigen die Überlegenheit von FIRE.
Schlussfolgerung:
FIRE bietet eine effektive Methode zur Verbesserung der Längengeneralisierung von Transformern.
Stats
T5's RPE: b(i, j) = rmin{i−j,K}
Alibi: b(i, j) = −r|i − j|
Kerple: b(i, j) = −r1 log(1+r2|i−j|)
Quotes
"FIRE verbessert die Generalisierung von Transformern auf längere Kontexte."
"Progressive Interpolation normalisiert die Distanz zwischen Abfragen und Schlüsseln."
"FIRE zeigt starke Leistung bei der Generalisierung auf lange Kontexte."