核心概念
FIRE verbessert die Generalisierung von Transformern auf längere Kontexte durch funktionale relative Positionscodierung.
統計
T5's RPE: b(i, j) = rmin{i−j,K}
Alibi: b(i, j) = −r|i − j|
Kerple: b(i, j) = −r1 log(1+r2|i−j|)
引用
"FIRE verbessert die Generalisierung von Transformern auf längere Kontexte."
"Progressive Interpolation normalisiert die Distanz zwischen Abfragen und Schlüsseln."
"FIRE zeigt starke Leistung bei der Generalisierung auf lange Kontexte."