Der Artikel stellt ein effizientes Framework namens StreamingLLM vor, das es ermöglicht, Sprachmodelle, die für eine begrenzte Aufmerksamkeitsfenster-Länge trainiert wurden, ohne Feinabstimmung für Texte mit unbegrenzter Länge einzusetzen.
Zunächst wird das Phänomen der "Aufmerksamkeitssenken" erklärt, bei dem die Sprachmodelle überproportional viel Aufmerksamkeit auf die Anfangstokens richten, unabhängig von deren semantischer Relevanz. Dies führt dazu, dass die Leistung der Sprachmodelle stark abfällt, wenn diese Anfangstokens aus dem Aufmerksamkeitsfenster entfernt werden.
StreamingLLM nutzt dieses Verhalten, indem es einige Anfangstokens als "Aufmerksamkeitssenken" beibehält, zusammen mit einem gleitenden Fenster der jüngsten Tokens. Dadurch kann das Modell stabil und effizient Texte mit bis zu 4 Millionen Tokens verarbeiten, ohne an Leistung einzubüßen.
Darüber hinaus zeigt der Artikel, dass das Hinzufügen eines dedizierten "Aufmerksamkeitssenken-Tokens" während des Vortrainings die Streaming-Leistung weiter verbessert, indem es die Notwendigkeit mehrerer Anfangstokens als Senken eliminiert.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Guangxuan Xi... às arxiv.org 04-09-2024
https://arxiv.org/pdf/2309.17453.pdfPerguntas Mais Profundas