Der Artikel stellt ein effizientes Framework namens StreamingLLM vor, das es ermöglicht, Sprachmodelle, die für eine begrenzte Aufmerksamkeitsfenster-Länge trainiert wurden, ohne Feinabstimmung für Texte mit unbegrenzter Länge einzusetzen.
Zunächst wird das Phänomen der "Aufmerksamkeitssenken" erklärt, bei dem die Sprachmodelle überproportional viel Aufmerksamkeit auf die Anfangstokens richten, unabhängig von deren semantischer Relevanz. Dies führt dazu, dass die Leistung der Sprachmodelle stark abfällt, wenn diese Anfangstokens aus dem Aufmerksamkeitsfenster entfernt werden.
StreamingLLM nutzt dieses Verhalten, indem es einige Anfangstokens als "Aufmerksamkeitssenken" beibehält, zusammen mit einem gleitenden Fenster der jüngsten Tokens. Dadurch kann das Modell stabil und effizient Texte mit bis zu 4 Millionen Tokens verarbeiten, ohne an Leistung einzubüßen.
Darüber hinaus zeigt der Artikel, dass das Hinzufügen eines dedizierten "Aufmerksamkeitssenken-Tokens" während des Vortrainings die Streaming-Leistung weiter verbessert, indem es die Notwendigkeit mehrerer Anfangstokens als Senken eliminiert.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询